AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
从USB到MCP:AI 工具生态接口的革新

从USB到MCP:AI 工具生态接口的革新

从USB到MCP:AI 工具生态接口的革新

上周,OpenAI 正式支持 MCP 协议的消息,无疑成为 AI 基础设施演进的重要里程碑。短短几个月内,从 Anthropic 首次提出到微软、OpenAI 等巨头先后加入,这一标准正在以惊人的速度完成从提出、验证到主流采纳的跃迁。

来自主题: AI技术研报
3719 点击    2025-04-02 15:21
动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术,成功构建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述,并通过状态变化网络实现语义特征的平滑建模,显著提升了动态语义场的建模能力。

来自主题: AI技术研报
3637 点击    2025-04-02 15:05
美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报
7310 点击    2025-04-02 14:58
细节厘米级还原、实时渲染,MTGS方法突破自动驾驶场景重建瓶颈

细节厘米级还原、实时渲染,MTGS方法突破自动驾驶场景重建瓶颈

细节厘米级还原、实时渲染,MTGS方法突破自动驾驶场景重建瓶颈

在自动驾驶领域,高精度仿真系统扮演着 “虚拟练兵场” 的角色。工程师需要在数字世界中模拟暴雨、拥堵、突发事故等极端场景,反复验证算法的可靠性。

来自主题: AI技术研报
6262 点击    2025-04-02 14:48
在DeepSearch中用DeepSeek-R1来做动作决策会更好么?

在DeepSearch中用DeepSeek-R1来做动作决策会更好么?

在DeepSearch中用DeepSeek-R1来做动作决策会更好么?

众所周知,DeepSeek R1 这种模型在推理任务上很能打,尤其是在数学和编程这些逻辑性强的领域。那么我们能直接把这种强大的推理能力搬到 DeepSearch 这种需要动态规划、多轮交互的深度搜索场景里吗?

来自主题: AI技术研报
5657 点击    2025-04-02 14:40
自动学会工具解题,RL扩展催化奥数能力激增17%

自动学会工具解题,RL扩展催化奥数能力激增17%

自动学会工具解题,RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中,工具使用一直是克服语言模型计算局限性的关键路径。不过,当今的大模型在使用工具方面还存在一些局限,比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

来自主题: AI技术研报
8916 点击    2025-04-02 10:09
LLM如何高效理解用户?淘天发布首个基于用户表征的问答基准UQABench

LLM如何高效理解用户?淘天发布首个基于用户表征的问答基准UQABench

LLM如何高效理解用户?淘天发布首个基于用户表征的问答基准UQABench

LLM正推动推荐系统革新,以用户表征为「软提示」的范式开辟了高效推荐新路径。在此趋势下,淘天团队发布了首个基于用户表征的个性化问答基准UQABench,系统评估了用户表征的提示效能。

来自主题: AI技术研报
2500 点击    2025-04-02 09:50
ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识

最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由 IDEA、清华大学、北京大学、香港科技大学(广州)联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文。据了解,本届大会共收到 11672 篇论文,被选中做 Oral Presentation(口头报告)的比例约为 1.8%

来自主题: AI技术研报
3624 点击    2025-04-01 15:27
一脑多机!智源的新发布,让不同机器人轻松协作

一脑多机!智源的新发布,让不同机器人轻松协作

一脑多机!智源的新发布,让不同机器人轻松协作

3 月 29 日,智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。

来自主题: AI技术研报
5811 点击    2025-04-01 15:19
这篇综述,LLM代理的方法、应用和挑战,2025的Agent势头特别猛。| 重磅

这篇综述,LLM代理的方法、应用和挑战,2025的Agent势头特别猛。| 重磅

这篇综述,LLM代理的方法、应用和挑战,2025的Agent势头特别猛。| 重磅

2025年,人工智能领域正在经历一场由LLM Agent引发的深刻变革,不管普通人的衣食住行还是研究者的尖端研究,都很难不受Agent的影响。

来自主题: AI技术研报
8227 点击    2025-04-01 10:06
奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

为了进一步挑战AI系统,大家已经开始研究一些最困难的竞赛中的问题,特别是国际奥林匹克竞赛和算法挑战。

来自主题: AI技术研报
3638 点击    2025-04-01 09:49
一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

SANA-Sprint是一个高效的蒸馏扩散模型,专为超快速文本到图像生成而设计。通过结合连续时间一致性蒸馏(sCM)和潜空间对抗蒸馏(LADD)的混合蒸馏策略,SANA-Sprint在一步内实现了7.59 FID和0.74 GenEval的最先进性能。SANA-Sprint仅需0.1秒即可在H100上生成高质量的1024x1024图像,在速度和质量的权衡方面树立了新的标杆。

来自主题: AI技术研报
8034 点击    2025-03-31 16:16
清华朱军团队 | 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈

清华朱军团队 | 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈

清华朱军团队 | 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈

在三维数字内容生产领域,三角形网格作为核心的几何表示形式,其质量直接影响虚拟资产在影视、游戏和工业设计等应用场景中的表现与效率。

来自主题: AI技术研报
4500 点击    2025-03-31 15:31
200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。然而,针对大语言模型的大规模强化学习训练门槛一直很高:

来自主题: AI技术研报
9073 点击    2025-03-31 15:07
被LangChain折磨够了吗?试下100行代码打造的LLM有向图框架PocketFlow | 独家最新

被LangChain折磨够了吗?试下100行代码打造的LLM有向图框架PocketFlow | 独家最新

被LangChain折磨够了吗?试下100行代码打造的LLM有向图框架PocketFlow | 独家最新

你是否曾对着一个繁复的AI框架,无奈地想:"真有必要搞得这么复杂吗?"在与臃肿框架斗争一年后,Zachary Huang博士决定大刀阔斧地革新,剔除所有花里胡哨的部分。于是Pocket Flow诞生了——一个仅有100行代码的超轻量级大语言模型框架!

来自主题: AI技术研报
8172 点击    2025-03-31 09:48
CVPR 2025 | EmoEdit:情感可编辑?深大VCC带你见证魔法!

CVPR 2025 | EmoEdit:情感可编辑?深大VCC带你见证魔法!

CVPR 2025 | EmoEdit:情感可编辑?深大VCC带你见证魔法!

当你翻开相册,看到一张平淡无奇的风景照,是否希望它能更温暖、更浪漫,甚至更忧郁?现在,EmoEdit 让这一切成为可能 —— 只需输入一个简单的情感词,EmoEdit 便能巧妙调整画面,使观众感知你想传递的情感。

来自主题: AI技术研报
8964 点击    2025-03-31 09:25
自动驾驶首次应用测试时计算!港大英伟达等新技术让AI边开边学,无人车遇变道自如应对

自动驾驶首次应用测试时计算!港大英伟达等新技术让AI边开边学,无人车遇变道自如应对

自动驾驶首次应用测试时计算!港大英伟达等新技术让AI边开边学,无人车遇变道自如应对

当开车遇到变道、加塞等场景时,驾驶员往往会下意识地激活自己的“安全驾驶思维”,从而做出激进的规避行为。

来自主题: AI技术研报
4701 点击    2025-03-31 09:07
AI「癌症神探」降临:准确度近100%,医生也自叹不如!

AI「癌症神探」降临:准确度近100%,医生也自叹不如!

AI「癌症神探」降临:准确度近100%,医生也自叹不如!

医学变革风暴来袭!ECgMPL模型如同医学领域的超级侦探,从细胞和组织微观图像里精准揪出癌症踪迹,诊断子宫内膜癌准确率近100%,远超医生平均水平。

来自主题: AI技术研报
5849 点击    2025-03-30 15:07
模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

最近,AI 公司 Databricks 推出了一种新的调优方法 TAO,只需要输入数据,无需标注数据即可完成。更令人惊喜的是,TAO 在性能上甚至超过了基于标注数据的监督微调。

来自主题: AI技术研报
6964 点击    2025-03-30 14:33
网上晒图要当心!AI六成可能知道你在哪儿

网上晒图要当心!AI六成可能知道你在哪儿

网上晒图要当心!AI六成可能知道你在哪儿

给AI一张全新的照片,它能以相当高的准确率还猜出照片在哪个城市拍摄的。在新研究中,表现最好的AI模型,猜出图片所在城市的正确率比人类高62.6%!以后网上晒图可要当心了,AI可能知道你在哪里!

来自主题: AI技术研报
7742 点击    2025-03-30 14:23
一文读懂n8n:零基础玩转AI智能体,我该怎么选!与Coze(扣子)、Dify区别在哪?

一文读懂n8n:零基础玩转AI智能体,我该怎么选!与Coze(扣子)、Dify区别在哪?

一文读懂n8n:零基础玩转AI智能体,我该怎么选!与Coze(扣子)、Dify区别在哪?

疯哥收到最多的问题就是关于n8n与coze(扣子)、Dify有何不同,n8n和他们相比有什么优势?疯哥是资深n8n玩家,深知n8n能带给个人和企业多么强大的能力。但是,非常多的国内朋友从来都没听说过n8n,更不用提使用n8n为自己和企业搭建强大的AI自动化工作流。

来自主题: AI技术研报
8654 点击    2025-03-30 11:01
Adobe黑科技:视频扩散降维图像编辑,ObjectMover秒懂物理规律

Adobe黑科技:视频扩散降维图像编辑,ObjectMover秒懂物理规律

Adobe黑科技:视频扩散降维图像编辑,ObjectMover秒懂物理规律

论文第一作者为余鑫,香港大学三年级博士生,通讯作者为香港大学齐晓娟教授。主要研究方向为生成模型及其在图像和 3D 中的应用,发表计算机视觉和图形学顶级会议期刊论文数十篇,论文数次获得 Oral, Spotlight 和 Best Paper Honorable Mention 等荣誉。此项研究工作为作者于 Adobe Research 的实习期间完成。

来自主题: AI技术研报
7729 点击    2025-03-30 10:46