AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
行业新突破:行为基础模型可实现高效的人形机器人全身控制

行业新突破:行为基础模型可实现高效的人形机器人全身控制

行业新突破:行为基础模型可实现高效的人形机器人全身控制

人形机器人作为用于复杂运动控制、人机交互和通用物理智能的多功能平台,正受到前所未有的关注。然而,由于其复杂的动力学、欠驱动和多样化的任务需求,实现高效的人形机器人全身控制 (Whole-Body Control,WBC) 仍然是一项根本性的挑战。

来自主题: AI技术研报
5668 点击    2025-07-22 13:50
上下文工程究竟该怎么用?试下Claude Code+PocketFlow

上下文工程究竟该怎么用?试下Claude Code+PocketFlow

上下文工程究竟该怎么用?试下Claude Code+PocketFlow

最近使用cursor的朋友可能已经遇到了这个问题:打开Cursor,准备使用Claude- sonnet4开始Vibe Coding,却看到了"Model not available"的提示。这不是您的网络问题,而是Cursor对中国地区用户限制了高级模型的访问。对于习惯了AI辅助编程的工程师来说,这简直像是突然失去了得力助手。

来自主题: AI技术研报
6252 点击    2025-07-22 10:14
手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里

手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里

手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里

在噪声污染严重影响预训练数据的质量时,如何能够高效且精细地精炼数据? 中科院计算所与阿里Qwen等团队联合提出RefineX,一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。

来自主题: AI技术研报
6136 点击    2025-07-22 10:03
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击

多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击

多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击

多模态大模型崛起,安全问题紧随其后 近年来,大语言模型(LLMs)的突破式进展,催生了视觉语言大模型(LVLMs)的快速兴起,代表作如 GPT-4V、LLaVA 等。

来自主题: AI技术研报
8304 点击    2025-07-22 09:55
数百个虚拟人在线逃生!天大等发布:首个实时在线多智能体模拟方法

数百个虚拟人在线逃生!天大等发布:首个实时在线多智能体模拟方法

数百个虚拟人在线逃生!天大等发布:首个实时在线多智能体模拟方法

天津大学联合清华和卡迪夫大学推出RESCUE系统,把「大脑感知-决策-行动」循环搬进电脑,让数百个虚拟人同时在线逃生:他们能实时看见地形、同伴和出口,自动绕开障碍,年轻人快跑、老人慢走、残疾人蹒跚;系统还能把身体24个部位的碰撞力用颜色实时标出来,帮助设计师提前找出潜在风险区域,也能用来演练地铁火灾、演唱会疏散等公共安全场景。

来自主题: AI技术研报
6519 点击    2025-07-21 16:40
告别评估乱象!首个视觉解释综合性基准发布,附人类真值 | KDD'25

告别评估乱象!首个视觉解释综合性基准发布,附人类真值 | KDD'25

告别评估乱象!首个视觉解释综合性基准发布,附人类真值 | KDD'25

埃默里大学团队推出首个覆盖8个真实任务、带有人类解释真值的视觉解释基准Saliency-Bench,统一评估流程与开源工具让显著性方法可公平比较,获KDD’25接收,为可解释AI奠定透明、可靠的基石。

来自主题: AI技术研报
7496 点击    2025-07-21 15:59
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。

来自主题: AI技术研报
9829 点击    2025-07-21 12:25
谷歌AlphaFold得了诺奖,但DeepMind根本没引用前人论文?

谷歌AlphaFold得了诺奖,但DeepMind根本没引用前人论文?

谷歌AlphaFold得了诺奖,但DeepMind根本没引用前人论文?

AlphaFold夺诺奖引争议!2016年,一位博士生在NeurIPS提出的研究,或许正是AlphaFold的「原型」。如今,导师Daniel Cremers发声,质问为何DeepMind忽略这项研究、不加以引用?

来自主题: AI技术研报
7156 点击    2025-07-21 10:53
提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%,破解具身数据荒难题

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%,破解具身数据荒难题

提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%,破解具身数据荒难题

具身这么火,面向具身场景的生成式渲染器也来了。 中科院自动化所张兆翔教授团队研发的TC-Light,能够对具身训练任务中复杂和剧烈运动的长视频序列进行逼真的光照与纹理重渲染,同时具备良好的时序一致性和低计算成本开销。

来自主题: AI技术研报
5442 点击    2025-07-21 10:45
AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

给AI一场压力测试,结果性能暴跌近30%。 来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。

来自主题: AI技术研报
8304 点击    2025-07-21 10:44
Nature刊文称“AI可模拟人类心智”,Science同日强烈质疑

Nature刊文称“AI可模拟人类心智”,Science同日强烈质疑

Nature刊文称“AI可模拟人类心智”,Science同日强烈质疑

7月2日,一个跨国团队在Nature杂志发表了一项开创性研究,宣称其推出的AI系统能够“模拟人类心智”。该系统在实验中可以“扮演”人类,生成逼真的人类行为。

来自主题: AI技术研报
8270 点击    2025-07-21 10:40
ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA

ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA

ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA

现有视频异常检测(Video Anomaly Detection, VAD)方法中,有监督方法依赖大量领域内训练数据,对未见过的异常场景泛化能力薄弱;而无需训练的方法虽借助大语言模型(LLMs)的世界知识实现检测,但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。

来自主题: AI技术研报
5912 点击    2025-07-21 10:28
大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 | ICML'25

大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 | ICML'25

大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 | ICML'25

大模型有苦恼,记性太好,无法忘记旧记忆,也区分不出新记忆!基于工作记忆的认知测试显示,LLM的上下文检索存在局限。在一项人类稳定保持高正确率的简单检索任务中,模型几乎一定会混淆无效信息与正确答案。

来自主题: AI技术研报
5372 点击    2025-07-21 10:27
大模型竞赛转向:决胜关键为何是“后训练”?

大模型竞赛转向:决胜关键为何是“后训练”?

大模型竞赛转向:决胜关键为何是“后训练”?

随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透,AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练(Post-training),正从过去锦上添花的“调优”环节,演变为决定模型最终价值的“主战场”。

来自主题: AI技术研报
6212 点击    2025-07-20 12:30
超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。

来自主题: AI技术研报
5625 点击    2025-07-20 11:50
无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025

无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025

无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025

只需一段视频,就可以直接生成可用的4D网格动画?!来自KAUST的研究团队提出全新方法V2M4,能够实现从单目视频直接生成高质量、显式的4D网格动画资源。

来自主题: AI技术研报
5536 点击    2025-07-20 11:21
真实物理加持,人物动画再也不像塑料人!UIUC华人让角色活起来了 | ICCV'25

真实物理加持,人物动画再也不像塑料人!UIUC华人让角色活起来了 | ICCV'25

真实物理加持,人物动画再也不像塑料人!UIUC华人让角色活起来了 | ICCV'25

PhysRig是UIUC与Stability AI联合提出的首个面向角色动画的可微物理绑定框架。通过将刚性骨架嵌入弹性软体体积,并使用Material Point Method(MPM)进行可微分物理模拟,PhysRig能够自然还原皮肤、脂肪、尾巴等柔性结构的变形过程,显著提升角色动画的真实感,解决传统LBS无法克服的体积丢失与变形伪影问题。

来自主题: AI技术研报
5991 点击    2025-07-20 11:13
AI「偷学」你的数据?6大顶级机构联手提出数据保护4大分级体系

AI「偷学」你的数据?6大顶级机构联手提出数据保护4大分级体系

AI「偷学」你的数据?6大顶级机构联手提出数据保护4大分级体系

你是否也曾担心过,随手发给 AI 助手的一份代码或报告,会让你成为下一个泄密新闻的主角?又或是你在网上发布的一张画作,会被各种绘画 AI 批量模仿并用于商业盈利?

来自主题: AI技术研报
6653 点击    2025-07-20 11:02
演讲生成黑科技,PresentAgent从文本到演讲视频

演讲生成黑科技,PresentAgent从文本到演讲视频

演讲生成黑科技,PresentAgent从文本到演讲视频

我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。

来自主题: AI技术研报
6376 点击    2025-07-19 11:31
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍

7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍

7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍

在没有标准答案的开放式对话中,RL该怎么做?多轮对话是大模型最典型的开放任务:高频、多轮、强情境依赖,且“好回复”因人而异。

来自主题: AI技术研报
6552 点击    2025-07-19 11:13
Manus 内部的 Context 工程经验(精校、高亮要点)

Manus 内部的 Context 工程经验(精校、高亮要点)

Manus 内部的 Context 工程经验(精校、高亮要点)

Manus 团队刚分享了他们构建 Agent 的 Context 工程经验。刚好我在自己读的过程中,对全文进行了精校翻译,并高亮要点与排版。来自一线的分享,总共 6 条经验,共 5K 字。

来自主题: AI技术研报
7963 点击    2025-07-19 11:07
突破户外RGB-only SLAM尺度漂移难题,精确定位+高保真重建 | ICCV'25开源

突破户外RGB-only SLAM尺度漂移难题,精确定位+高保真重建 | ICCV'25开源

突破户外RGB-only SLAM尺度漂移难题,精确定位+高保真重建 | ICCV'25开源

户外SLAM的尺度漂移问题,终于有了新解法! 香港科技大学(广州)的研究的最新成果:S3PO-GS,一个专门针对户外单目SLAM的3D高斯框架,已被ICCV 2025接收。

来自主题: AI技术研报
5982 点击    2025-07-19 10:59
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

实时强化学习来了!AI 再也不怕「卡顿」。 设想这样一个未来场景:多个厨师机器人正在协作制作煎蛋卷。

来自主题: AI技术研报
7639 点击    2025-07-18 14:06
500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式

500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式

500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式

你可能听说过OpenAI的Sora,用数百万视频、千万美元训练出的AI视频模型。 但你能想象,有团队只用3860段视频、不到500美元成本,也能在关键任务上做到SOTA?

来自主题: AI技术研报
5631 点击    2025-07-18 13:13