AI资讯新闻榜单内容搜索-端到端

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 端到端
「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

针对端到端全模态大模型(OmniLLMs)在跨模态对齐和细粒度理解上的痛点,浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent,通过「思考 - 行动 - 观察 - 反思」闭环,实现了从被动响应到主动探询的范式转变。

来自主题: AI技术研报
6975 点击    2026-01-09 10:54
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效

AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效

AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效

VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。但现有的视觉 token 剪枝方法都不是专为自动驾驶设计的,在自动驾驶场景中都具有局限性。

来自主题: AI技术研报
9044 点击    2026-01-04 15:22
AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案

AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案

AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案

随着大语言模型(LLM)的商业价值快速提升,其昂贵的训练成本使得模型版权保护(IP Protection)成为业界关注的焦点。然而,现有模型版权验证手段(如模型指纹)往往忽略一个关键威胁:攻击者一旦直接窃取模型权重,即拥有对模型的完全控制权,能够逆向指纹 / 水印,或通过修改输出内容绕过指纹验证。

来自主题: AI技术研报
8719 点击    2025-12-02 10:20
混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

腾讯混元大模型团队正式发布并开源HunyuanOCR模型!这是一款商业级、开源且轻量(1B参数)的OCR专用视觉语言模型,模型采用原生ViT和轻量LLM结合的架构。目前,该模型在抱抱脸(Hugging Face)趋势榜排名前四,GitHub标星超过700,并在Day 0被vllm官方团队接入。

来自主题: AI技术研报
8201 点击    2025-11-29 13:43
编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

当元宇宙数字人急需「群舞技能」,音乐驱动生成技术却遭遇瓶颈——舞者碰撞、动作僵硬、长序列崩坏。为解决这些难题,南理工、清华、南大联合研发端到端模型TCDiff++,突破多人生成技术壁垒,实现高质量、长时序的群体舞蹈自动生成。

来自主题: AI技术研报
10785 点击    2025-11-27 15:00
首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!

中科大 LDS 实验室何向南、王翔团队与 Alpha Lab 张岸团队联合开源 MiniOneRec,推出生成式推荐首个完整的端到端开源框架,不仅在开源场景验证了生成式推荐 Scaling Law,还可轻量复现「OneRec」,为社区提供一站式的生成式推荐训练与研究平台。

来自主题: AI技术研报
10838 点击    2025-11-18 09:35
从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

从VLA到RoboOmni,全模态具身新范式让机器人察言观色、听懂话外音

复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni,统⼀视觉、⽂本、听觉与动作模态,实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据,引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。

来自主题: AI技术研报
9510 点击    2025-11-12 09:29
清北联合推出Motion Transfer,比肩Gemini Robotics,让机器人直接从人类数据中端到端学习技能

清北联合推出Motion Transfer,比肩Gemini Robotics,让机器人直接从人类数据中端到端学习技能

清北联合推出Motion Transfer,比肩Gemini Robotics,让机器人直接从人类数据中端到端学习技能

近期,Google DeepMind 发布新一代具身大模型 Gemini Robotics 1.5,其核心亮点之一便是被称为 Motion Transfer Mechanism(MT)的端到端动作迁移算法 —— 无需重新训练,即可把不同形态机器人的技能「搬」到自己身上。不过,官方技术报告对此仅一笔带过,细节成谜。

来自主题: AI技术研报
8879 点击    2025-11-05 16:39