AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

在开放研究领域里,苹果似乎一整个脱胎换骨,在纯粹的研究中经常会有一些出彩的工作。这次苹果发布的研究成果的确出人意料:他们用谷歌的 Nano-banana 模型做个了视觉编辑领域的 ImageNet。

来自主题: AI技术研报
9184 点击    2025-10-27 11:13
NeurIPS 2025 Spotlight | 让检索、推理真正「合体」的小而强模型,AceSearcher来了

NeurIPS 2025 Spotlight | 让检索、推理真正「合体」的小而强模型,AceSearcher来了

NeurIPS 2025 Spotlight | 让检索、推理真正「合体」的小而强模型,AceSearcher来了

如何让一个并不巨大的开源大模型,在面对需要多步检索与复杂逻辑整合的问题时,依然像 “冷静的研究员” 那样先拆解、再查证、后归纳,最后给出可核实的结论?

来自主题: AI技术研报
6520 点击    2025-10-27 10:52
破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

语言模型遭遇严重的位置偏见,即模型对不同上下⽂位置的敏感度不⼀致。模型倾向于过度关注输⼊序列中的特定位置,严重制约了它们在复杂推理、⻓⽂本理解以及模型评估等关键任务上的表现。

来自主题: AI技术研报
5895 点击    2025-10-27 10:33
可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25

聚焦大型语言模型(LLMs)的安全漏洞,研究人员提出了全新的越狱攻击范式与防御策略,深入剖析了模型在生成过程中的注意力变化规律,为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收

来自主题: AI技术研报
4982 点击    2025-10-27 10:25
八年后,Meta教会了Transformer「显式思考」

八年后,Meta教会了Transformer「显式思考」

八年后,Meta教会了Transformer「显式思考」

最近的 Meta 可谓大动作不断,一边疯狂裁人,一边又高强度产出论文。

来自主题: AI技术研报
9247 点击    2025-10-27 10:18
谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana

谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana

谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana

你永远无法精确描述出梵高的笔触或王家卫的光影。AI创作的未来,是让AI直接「看懂」你的灵感,而不是去揣摩你的指令。

来自主题: AI技术研报
8274 点击    2025-10-27 10:08
AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」

AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」

AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」

如何科学地给大模型「找茬」?Anthropic联合Thinking Machines发布新研究,通过30万个场景设计和极限压力测试,扒了扒OpenAI、谷歌、马斯克家AI的「人设」。那谁是老好人?谁是效率狂魔?

来自主题: AI技术研报
6866 点击    2025-10-27 10:00
让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界

让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界

让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界

在机器人与智能体领域,一个老大难问题是:当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时,它不仅要看懂环境,更要解释指令、规划路径 / 可操作区域,并把这些推理落实为准确的动作。

来自主题: AI技术研报
7038 点击    2025-10-27 09:50
AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025

看似无害的「废话」,也能让AI越狱?在NeurIPS 2025,哥大与罗格斯提出LARGO:不改你的提问,直接在模型「潜意识」动手脚,让它生成一段温和自然的文本后缀,却能绕过安全防护,输出本不该说的话。

来自主题: AI技术研报
5897 点击    2025-10-27 09:40
AI 时代,重新定义开发者丨最新白皮书解读

AI 时代,重新定义开发者丨最新白皮书解读

AI 时代,重新定义开发者丨最新白皮书解读

在 AI 时代,开发的边界正被重新划定。 我们能够观察到,越来越多的产品经理、数据分析师、设计师,甚至内容创作者,正在熟练地使用 Cursor、ChatGPT、DeepSeek 等 AI 工具,解决真

来自主题: AI技术研报
8304 点击    2025-10-26 22:27
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库

手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库

手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库

HuggingFace 与牛津大学的研究者们为想要进入现代机器人学习领域的新人们提供了了一份极其全面易懂的技术教程。这份教程将带领读者探索现代机器人学习的全景,从强化学习和模仿学习的基础原理出发,逐步走向能够在多种任务甚至不同机器人形态下运行的通用型、语言条件模型。

来自主题: AI技术研报
8720 点击    2025-10-26 16:28
知识图谱推理新sota,兼顾性能+效率!中科大新作 | NeurIPS'25

知识图谱推理新sota,兼顾性能+效率!中科大新作 | NeurIPS'25

知识图谱推理新sota,兼顾性能+效率!中科大新作 | NeurIPS'25

知识图谱推理是人工智能的关键技术,在多领域有广泛应用,但现有方法存在推理效率低、表达能力不足、过平滑问题等挑战。中科大研究团队提出DuetGraph,采用双阶段粗到细推理框架与双通路全局 - 局部特征融合模型,实现推理精度与效率的平衡,为大规模知识推理提供解决方案。

来自主题: AI技术研报
7287 点击    2025-10-26 10:30
NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

近期,来自北航等机构的研究提出了一种新的解决思路:自回归奖励引导表征编辑(ARGRE)框架。该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径,实现了在测试阶段进行高效「解毒」。

来自主题: AI技术研报
5485 点击    2025-10-26 10:28
均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。

来自主题: AI技术研报
6462 点击    2025-10-25 14:32
Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段,图像编辑(Image Editing)正逐渐取代一次性生成,成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型?

来自主题: AI技术研报
6309 点击    2025-10-25 14:26
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

斯坦福等新框架,用在线强化学习让智能体系统“以小搏大”,领先GPT-4o—— AgentFlow,是一种能够在线优化智能体系统的新范式,可以持续提升智能体系统对于复杂问题的推理能力。

来自主题: AI技术研报
5554 点击    2025-10-25 14:03
验证者定律,智能的锯齿边缘和商品化,CoT之父Jason Wei2025AI进展的三个思路

验证者定律,智能的锯齿边缘和商品化,CoT之父Jason Wei2025AI进展的三个思路

验证者定律,智能的锯齿边缘和商品化,CoT之父Jason Wei2025AI进展的三个思路

在这片喧嚣和迷雾之中,我们迫切需要一个清晰的导航图。而Jason Wei正是提供这份地图的最佳人选之一。他现任Meta超级智能实验室(Meta Super Intelligence Labs)的研究科学家,此前在OpenAI工作了两年,o1研发的主导者,更早之前是Google Brain的科学家。

来自主题: AI技术研报
7774 点击    2025-10-25 13:09
超越Runway!Adobe发布新神器:P视频比P图还简单

超越Runway!Adobe发布新神器:P视频比P图还简单

超越Runway!Adobe发布新神器:P视频比P图还简单

全新AI工具EditVerse将图片和视频编辑整合到一个框架中,让你像P图一样轻松P视频。通过统一的通用视觉语言和上下文学习能力,EditVerse解决了传统视频编辑复杂、数据稀缺的问题,还能实现罕见的「涌现能力」。在效果上,它甚至超越了商业工具Runway,预示着一个创作新纪元的到来。

来自主题: AI技术研报
7842 点击    2025-10-25 10:42
腾讯发布SpecExit算法,无损压缩端到端加速2.5倍!解决大模型长思考效率难题

腾讯发布SpecExit算法,无损压缩端到端加速2.5倍!解决大模型长思考效率难题

腾讯发布SpecExit算法,无损压缩端到端加速2.5倍!解决大模型长思考效率难题

为破解大模型长思维链的效率难题,并且为了更好的端到端加速落地,我们将思考早停与投机采样无缝融合,提出了 SpecExit 方法,利用轻量级草稿模型预测 “退出信号”,在避免额外探测开销的同时将思维链长度缩短 66%,vLLM 上推理端到端加速 2.5 倍。

来自主题: AI技术研报
7469 点击    2025-10-24 16:53
仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架

仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架

仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架

阿里巴巴与上海交通大学 EPIC Lab 联合提出 Socratic-Zero,一个完全无外部数据依赖的自主推理训练框架。该方法仅从 100 个种子问题出发,通过三个智能体的协同进化,自动生成高质量、难度自适应的课程,并持续提升模型推理能力。

来自主题: AI技术研报
7047 点击    2025-10-24 16:45
HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴

HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴

HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴

在科幻作品描绘的未来,人工智能不仅仅是完成任务的工具,更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中,多模态大模型已展现出一定潜力,可以接受视觉、语音等多模态的信息输入,结合上下文做出反馈。

来自主题: AI技术研报
6915 点击    2025-10-24 10:51
Meta「透视」AI思维链:CRV推理诊断,准确率达 92%!

Meta「透视」AI思维链:CRV推理诊断,准确率达 92%!

Meta「透视」AI思维链:CRV推理诊断,准确率达 92%!

在最近一篇来自Meta FAIR团队的论文里,研究者找到了一种前所未有的方式——他们能实时看到AI的思考过程。这项名为CRV的方法,通过替换模型内部的MLP模块,让每一步推理都变得「可见」。这不是隐喻,而是可量化的现象。Meta用它让错误检测精度提升到92.47%,也让人类第一次得以窥见AI是怎么想错的。

来自主题: AI技术研报
8577 点击    2025-10-24 10:19
大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

在大模型微调实践中,SFT(监督微调)几乎成为主流流程的一部分,被广泛应用于各类下游任务和专用场景。比如,在医疗领域,研究人员往往会用领域专属数据对大模型进行微调,从而显著提升模型在该领域特定任务上的表现。

来自主题: AI技术研报
7172 点击    2025-10-24 10:13
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 为填补这一空白,复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报
6906 点击    2025-10-23 16:22
告别黑箱解释!首个潜变量自动解释框架 | CIKM'25

告别黑箱解释!首个潜变量自动解释框架 | CIKM'25

告别黑箱解释!首个潜变量自动解释框架 | CIKM'25

我们被「黑箱」困住了!深度生成模型虽能创造逼真内容,但其内部运作机制如同「黑箱」,潜变量的意义难以捉摸。埃默里大学团队提出LatentExplainer框架,巧妙地将潜在变量转化为易懂解释,大幅提升模型解释质量与可靠性。

来自主题: AI技术研报
6248 点击    2025-10-23 16:09
搜索智能体的关键一课:先立目标,再照镜子

搜索智能体的关键一课:先立目标,再照镜子

搜索智能体的关键一课:先立目标,再照镜子

随着 AI 能力不断增强,它正日益融入我们的工作与生活。我们也更愿意给予它更多「授权」,让它主动去搜集信息、分析证据、做出判断。搜索智能体正是 AI 触达人类世界迈出的重要一步。

来自主题: AI技术研报
7425 点击    2025-10-23 16:04
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘

大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘

大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘

大模型在强化学习过程中,终于知道什么经验更宝贵了! 来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了一套经验管理和学习框架ExGRPO—— 通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。

来自主题: AI技术研报
5591 点击    2025-10-23 15:42
无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE + Diffusion」的范式在训练

来自主题: AI技术研报
5639 点击    2025-10-23 15:10
Nature点赞!哈佛MIT最新作:AI科学家时代来了

Nature点赞!哈佛MIT最新作:AI科学家时代来了

Nature点赞!哈佛MIT最新作:AI科学家时代来了

AI科学家时代正在到来,哈佛MIT最新推出的ToolUniverse,通过一个统一平台,让AI用自然语言操作600+科学工具,推动科研自动化的全面升级,迎接科学发现新范式。

来自主题: AI技术研报
8898 点击    2025-10-23 12:38