AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正读懂图像与文本、在多模 态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作,一直是学术界和工业界关注的热门问题。

来自主题: AI技术研报
7854 点击    2025-07-16 15:19
只因一个“:”,大模型全军覆没

只因一个“:”,大模型全军覆没

只因一个“:”,大模型全军覆没

一个冒号,竟然让大模型集体翻车?

来自主题: AI技术研报
7428 点击    2025-07-16 10:45
倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

你以为你在掌控AI,其实是AI在驯化你!最新研究警告:ChatGPT正改变英语的表达方式,悄然植入自己的偏好。是时候重新审视,我们到底在表达自我,还是AI的「复读机」?

来自主题: AI技术研报
7049 点击    2025-07-16 10:43
借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

上周五(711),月之暗面蛰伏半年,憋了个大的,正式发布Kimi K2模型,总参数1T,同步开源。具体模型效果就不过多赘述了,网上已经有很多实测。

来自主题: AI技术研报
8605 点击    2025-07-16 10:18
智能跃迁:像大模型一样进化

智能跃迁:像大模型一样进化

智能跃迁:像大模型一样进化

我们正经历一场前所未有的智能跃迁。人工智能带来的,远不止于技术革新,更是一场深刻重塑人类认知、教育与生存方式的范式转移。

来自主题: AI技术研报
7518 点击    2025-07-16 10:15
为什么你用AI编程总拿不到想要的结果?北航研究揭秘:50%问题来自CoT和你自己

为什么你用AI编程总拿不到想要的结果?北航研究揭秘:50%问题来自CoT和你自己

为什么你用AI编程总拿不到想要的结果?北航研究揭秘:50%问题来自CoT和你自己

现在几乎所有主流的代码生成工具都在用CoT。但问题来了:这些"思考步骤"真的可靠吗?来自北京航空航天大学的研究者们发现,虽然CoT提升了性能,但关于这些中间推理步骤的质量,学术界竟然没有系统性的研究!

来自主题: AI技术研报
6787 点击    2025-07-16 10:13
南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述

南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述

南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述

本文作者来自:南京大学、香港大学、中南大学、地平线、中国科学院计算所、上海交通大学、慕尼黑工业大学、清华大学。

来自主题: AI技术研报
7978 点击    2025-07-15 15:25
谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

谷歌T5Gemma重燃架构之战!「套壳」反杀Gemma本尊,9B推理快得离谱

Google双线出击!T5Gemma重燃encoder-decoder架构战火,性能暴涨12分;MedGemma坚守decoder-only路线,强攻医疗多模态,击穿闭源壁垒。Gemma体系完成「架构+落地」双重进化,打响Google开源反击战。

来自主题: AI技术研报
7689 点击    2025-07-15 15:05
彻底压榨潜能!我用 Kimi K2 写了一套前端组件库

彻底压榨潜能!我用 Kimi K2 写了一套前端组件库

彻底压榨潜能!我用 Kimi K2 写了一套前端组件库

大家好,我是歸藏(guizang),今天展示一下我用 Kimi K2 实现的一套组件库,以及K2 替代 Claude Code 的默认模型的教程补充。

来自主题: AI技术研报
8898 点击    2025-07-15 13:33
微软研究了20万Copilot真实对话:AI到底改变了哪些工作?

微软研究了20万Copilot真实对话:AI到底改变了哪些工作?

微软研究了20万Copilot真实对话:AI到底改变了哪些工作?

每当我们讨论AI对就业的影响时,大多数都是专家拍脑袋的预测。但微软研究院的这篇论文不一样,他们分析了20万个真实的Microsoft bing Copilot用户对话,每一个数据点背后都是一个真实的人,一个真实的工作场景,首次用硬数据告诉我们:AI到底在改变什么工作?哪些工作活动和职业正在被生成式AI(Generative AI)最大程度地影响?

来自主题: AI技术研报
7864 点击    2025-07-15 12:18
首次综述「边-云协同计算」,分布式智能与模型优化的最新进展

首次综述「边-云协同计算」,分布式智能与模型优化的最新进展

首次综述「边-云协同计算」,分布式智能与模型优化的最新进展

边缘-云协同计算通过整合边缘节点和云端资源,解决了传统云计算的延迟和带宽问题,推动了分布式智能和模型优化的发展。最新综述论文系统梳理了ECCC的架构设计、模型优化、资源管理、隐私安全和实际应用,提出了统一的分布式智能与模型优化框架,为未来研究提供了方向,包括大语言模型部署、6G整合和量子计算等前沿技术。

来自主题: AI技术研报
8148 点击    2025-07-15 11:43
用子模优化做文本选择、段落重排和上下文工程

用子模优化做文本选择、段落重排和上下文工程

用子模优化做文本选择、段落重排和上下文工程

在上一篇关于子模优化与多样化查询的文章发表后,我们收到了来自圈内很多积极的反馈,希望我们能多聊聊子模性(submodularity)和子模优化,尤其是在信息检索和 Agentic Search 场景下的更多应用。

来自主题: AI技术研报
9062 点击    2025-07-15 11:05
智能之镜:NeuroAI如何反映大脑与人工智能的未来

智能之镜:NeuroAI如何反映大脑与人工智能的未来

智能之镜:NeuroAI如何反映大脑与人工智能的未来

在大语言模型能力如此强大的背景下,AI与神经科学之间的联系变得前所未有地重要,催生了一个新兴领域:NeuroAI。它关注两个角度的问题:

来自主题: AI技术研报
8354 点击    2025-07-15 10:32
AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

LLM正以前所未有的速度进化:METR发现,它们的智能每7个月就翻一番。到了2030年,一个模型可能只需几小时,就能搞定人类工程师几个月的工作。别眨眼,你的岗位或许已在倒计时中。

来自主题: AI技术研报
6699 点击    2025-07-15 10:24
比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

Zeju Qiu和Tim Z. Xiao是德国马普所博士生,Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员

来自主题: AI技术研报
9203 点击    2025-07-15 10:11
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报
7129 点击    2025-07-15 10:07
10项评测痛打GPT-4o!智源重磅开源全球最强具身智能大脑

10项评测痛打GPT-4o!智源重磅开源全球最强具身智能大脑

10项评测痛打GPT-4o!智源重磅开源全球最强具身智能大脑

最强具身大脑,宝座易主!在10项评测中,国产RoboBrain 2.0全面超越GPT-4o。这次,智源研究院开源了具身大脑RoboBrain 2.0 32B版本以及跨本体大小脑协同框架RoboOS 2.0单机版。不仅问鼎评测基准SOTA,还成功刷新跨本体多机协作技术范式!

来自主题: AI技术研报
8435 点击    2025-07-14 16:12
ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面

ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面

ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面

反思技术因其简单性和有效性受到了广泛的研究和应用,具体表现为在大语言模型遇到障碍或困难时,提示其“再想一下”,可以显著提升性能 [1]。然而,2024 年谷歌 DeepMind 的研究人员在一项研究中指出,大模型其实分不清对与错,如果不是仅仅提示模型反思那些它回答错误的问题,这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。

来自主题: AI技术研报
7234 点击    2025-07-14 15:40
这个AI精准模拟人类行为大脑状态,上Nature了

这个AI精准模拟人类行为大脑状态,上Nature了

这个AI精准模拟人类行为大脑状态,上Nature了

首个能跨领域精准预测人类认知的基础模型诞生!

来自主题: AI技术研报
7059 点击    2025-07-14 12:00
AI失忆术!只需3个注意力头,就能让大模型忘记「狗会叫」

AI失忆术!只需3个注意力头,就能让大模型忘记「狗会叫」

AI失忆术!只需3个注意力头,就能让大模型忘记「狗会叫」

AI也能选择性失忆?Meta联合NYU发布新作,轻松操控缩放Transformer注意头,让大模型「忘掉狗会叫」。记忆可删、偏见可调、安全可破,掀开大模型「可编辑时代」,安全边界何去何从。

来自主题: AI技术研报
6865 点击    2025-07-14 11:34