AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
LeCun在Meta的最后一篇论文

LeCun在Meta的最后一篇论文

LeCun在Meta的最后一篇论文

《LeJEPA:无需启发式的可证明且可扩展的自监督学习》。

来自主题: AI技术研报
6005 点击    2025-11-14 10:20
下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

多模态大语言模型(MLLM)在目标定位精度上被长期诟病,难以匹敌传统的基于坐标回归的检测器。近日,来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni,打破了这一僵局。

来自主题: AI技术研报
5472 点击    2025-11-14 10:18
只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

近日,来自北京大学与BeingBeyond的研究团队提出DemoHLM框架,为人形机器人移动操作(loco-manipulation)领域提供一种新思路——仅需1次仿真环境中的人类演示,即可自动生成海量训练数据,实现真实人形机器人在多任务场景下的泛化操作,有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。

来自主题: AI技术研报
7594 点击    2025-11-14 09:44
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能

用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能

用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能

当前视频检索研究正陷入一个闭环困境:以MSRVTT为代表的窄域基准,长期主导模型在粗粒度文本查询上的优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。

来自主题: AI技术研报
5406 点击    2025-11-14 09:41
AI 时代,印度崛起了

AI 时代,印度崛起了

AI 时代,印度崛起了

大家好,我是 Ai 学习的老章 最近 GitHub 发布了 2025 年度开发者趋势报告

来自主题: AI技术研报
5526 点击    2025-11-13 16:45
Claude Skills 新玩法:用 skill-creator 10 分钟搞定 Excel 报表自动化,职场人必学

Claude Skills 新玩法:用 skill-creator 10 分钟搞定 Excel 报表自动化,职场人必学

Claude Skills 新玩法:用 skill-creator 10 分钟搞定 Excel 报表自动化,职场人必学

skill‑creator 是 Anthropic 在 Claude Skills 体系中提供的“元技能”。它本身是一个可直接在 Claude 对话中调用的 Skill,专门用于 帮助用户快速创建、编辑、打包其他自定义 Skill,从而让 Claude 能够在特定业务场景下拥有专业化的能力。

来自主题: AI技术研报
6833 点击    2025-11-13 16:22
2M大小模型定义表格理解极限,清华大学崔鹏团队开源LimiX-2M

2M大小模型定义表格理解极限,清华大学崔鹏团队开源LimiX-2M

2M大小模型定义表格理解极限,清华大学崔鹏团队开源LimiX-2M

提到 AI 的突破,人们首先想到的往往是大语言模型(LLM):写代码、生成文本、甚至推理多模态内容,几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上,这些强大的模型却频频失手。

来自主题: AI技术研报
8682 点击    2025-11-13 15:22
一句话,我用豆包 AI 做出《红楼梦》互动游戏

一句话,我用豆包 AI 做出《红楼梦》互动游戏

一句话,我用豆包 AI 做出《红楼梦》互动游戏

“一位老师,用 AI 做了个《林黛玉初进贾府》的互动游戏。”

来自主题: AI技术研报
9876 点击    2025-11-13 15:21
让AI精准操作网页:CAMEL Hybrid Browser Toolkit深度解析

让AI精准操作网页:CAMEL Hybrid Browser Toolkit深度解析

让AI精准操作网页:CAMEL Hybrid Browser Toolkit深度解析

本文档分析 CAMEL 项目中 hybrid_browser_toolkit 的技术实现,覆盖其架构设计、核心功能与通信协议。

来自主题: AI技术研报
9921 点击    2025-11-13 15:20
跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?

来自主题: AI技术研报
8961 点击    2025-11-13 15:19
GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

目前,GRPO 在图像和视频生成的流模型中取得了显著提升(如 FlowGRPO 和 DanceGRPO),已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

来自主题: AI技术研报
7416 点击    2025-11-13 14:52
AI虚拟细胞诞生!科学家成功预测药物作用、细胞命运和器官发育

AI虚拟细胞诞生!科学家成功预测药物作用、细胞命运和器官发育

AI虚拟细胞诞生!科学家成功预测药物作用、细胞命运和器官发育

科学家用 AI 预测细胞未来的命运照进了现实——在虚拟世界中重塑生命系统,这对药物发现、早期筛选和疾病预防至关重要。

来自主题: AI技术研报
5884 点击    2025-11-13 09:39
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?

来自主题: AI技术研报
5802 点击    2025-11-13 09:37
NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

华中科技大学团队推出首个水下多模态大模型NAUTILUS,支持8种水下场景理解任务,并开源145万图文对的NautData数据集。模型通过视觉特征增强模块解决水下图像模糊和颜色失真问题,性能超越现有模型,恶劣环境下表现更佳。

来自主题: AI技术研报
10032 点击    2025-11-12 17:16
阿里发了个简历AI神器,大小仅0.6B

阿里发了个简历AI神器,大小仅0.6B

阿里发了个简历AI神器,大小仅0.6B

复杂的简历,AI也能读懂了。

来自主题: AI技术研报
8975 点击    2025-11-12 17:15
全球第二、国内第一!钉钉发布DeepResearch多智能体框架,已在真实企业部署

全球第二、国内第一!钉钉发布DeepResearch多智能体框架,已在真实企业部署

全球第二、国内第一!钉钉发布DeepResearch多智能体框架,已在真实企业部署

在数字经济浪潮中,企业对于高效、精准的信息获取与决策支持的需求日益迫切。从前沿科学探索到行业趋势分析,再到企业级决策支持,一个能够从海量异构数据源中提取关键知识、执行多步骤推理并生成结构化或多模态输出的「深度研究系统」正变得不可或缺。

来自主题: AI技术研报
6653 点击    2025-11-12 17:05
Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!

Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!

Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!

浙江大学和新加坡南洋理工大学新研究旨在探索空间碳中和数据中心的可行性。太空环境具备两大独特优势:丰富的太阳能可为计算设备提供清洁稳定的电力;接近绝对零度的深空环境则为服务器废热提供了理想的散热条件。

来自主题: AI技术研报
9206 点击    2025-11-12 15:16
《麦肯锡2025 AI报告》|附下载

《麦肯锡2025 AI报告》|附下载

《麦肯锡2025 AI报告》|附下载

麦肯锡刚刚发布了2025年AI最新报告,一组数据让人“破防”:88%的组织都在用AI,但只有39%的组织吃出了“真金白银”。这份《The state of AI in 2025》回答了AI时代大家都很关心的一个问题:

来自主题: AI技术研报
7434 点击    2025-11-12 11:22
6666!NeurIPS满分论文来了

6666!NeurIPS满分论文来了

6666!NeurIPS满分论文来了

四个审稿人全给6分,NeurIPS唯一满分论文炸了!

来自主题: AI技术研报
9947 点击    2025-11-12 10:53
打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点

打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点

打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点

3D Gaussian Splatting (3DGS) 是一种日益流行的新视角合成方法,给定 3D 场景的一组带位姿的图像(即带有位置和方向的图像),3DGS 会迭代训练一个场景表示,该表示由大量各向异性 3D 高斯体组成,用以捕捉场景的外观和几何形状。

来自主题: AI技术研报
10071 点击    2025-11-12 10:51
英伟达铁幕之后,谷歌AI芯片已成气候

英伟达铁幕之后,谷歌AI芯片已成气候

英伟达铁幕之后,谷歌AI芯片已成气候

英伟达在聚光灯下狂飙,谷歌却在幕后悄悄造出自己的AI基建帝国系统。当别人还在抢GPU时,它早已自给自足、闭环生长——闷声干大事,从未如此谷歌。

来自主题: AI技术研报
6137 点击    2025-11-12 10:25
上交×蚂蚁发布 DiagGym:以世界模型驱动交互式医学诊断智能体

上交×蚂蚁发布 DiagGym:以世界模型驱动交互式医学诊断智能体

上交×蚂蚁发布 DiagGym:以世界模型驱动交互式医学诊断智能体

临床诊断并非一次性的「快照」,而是一场动态交互、不断「探案」的推理过程。然而,当下的大模型大多基于静态数据训练,难以掌握真实诊疗中充满不确定性的多轮决策轨迹。如何让AI学会「追问」、选择检查,并一步步抽丝剥茧,迈向正确诊断?

来自主题: AI技术研报
7780 点击    2025-11-12 10:24
谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新

谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新

谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新

2025年末,谷歌通过Kaggle平台,以前所未有的力度,连续推出了两个为期五天的线上强化课程。这不仅仅是两次普通的线上分享,更像是一场由谷歌顶级机器学习(ML)研究员和工程师亲自引领的、深入探索生成式AI及其前沿应用——AI Agents(人工智能代理)的集训。

来自主题: AI技术研报
9248 点击    2025-11-12 10:21
ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo

ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo

ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo

你是否曾为搭建具身仿真环境耗费数周学习却效果寥寥? 是否因人工采集海量交互数据需要高昂成本而望而却步? 又是否因找不到足够丰富真实的开放场景让你的智能体难以施展拳脚?

来自主题: AI技术研报
9789 点击    2025-11-12 09:32
从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni,统⼀视觉、⽂本、听觉与动作模态,实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据,引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。

来自主题: AI技术研报
8456 点击    2025-11-12 09:29