AI资讯新闻榜单内容搜索-端到端

速递｜Boson AI × SGLang 发布 Higgs Audio v3 TTS：让语音智能体实时可控

Boson AI 与 SGLang-Omni 团队宣布，SGLang-Omni 已完成对 Higgs Audio v3 TTS 的端到端 Serving 支持。作为一家成立于 2023 年的 AI 基础设施公司，李沐与 Alex Smola共同创立了 Boson AI，聚焦大模型时代的系统与基础设施创新。

来自主题: AI资讯

8927 点击 2026-06-06 10:18

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

OpenRouter Trending榜单冷不丁窜出一匹国产黑马，热度暴涨稳居全球第二。

来自主题: AI技术研报

9881 点击 2026-06-05 09:55

ICML2026 | AutoMoT : B2D & nuScense双SOTA ，重新思考VLM和端到端驾驶的结合

大模型进入自动驾驶后，最直接的价值在于场景理解。它可以识别前车是否准备并线、行人是否可能横穿、施工区域是否会影响车道，也可以分析复杂路口中的让行关系。

来自主题: AI技术研报

10617 点击 2026-05-28 14:50

22.9倍加速！FlashAR：仅用0.05%数据，让预训练好的自回归图像模型飞起来

来自浙江大学和阿德莱德大学的研究团队提出了 FlashAR—— 一个轻量级的后训练加速框架。不需要从头训练，在 Emu3.5-Image-34B 模型上，仅用原始训练数据的 0.05%（约 8 万张图片），就能将预训练好的自回归模型改造成高度并行的生成器 Emu3.5-34B-Flash，实现最高 22.9 倍的端到端加速。

来自主题: AI技术研报

9191 点击 2026-05-24 10:07

Agent请求量暴涨15倍！Cursor创始人：75%企业代码已由AI生成，内部30%PR已由Agent端到端完成，探索无人类介入的自主Team模式

这是主流出版集团首次发起针对AI企业的诉讼，Meta明目张胆侵犯版权，出版商们将还原全部事实。

来自主题: AI资讯

10748 点击 2026-05-13 15:24

零投放数百万美元收入，前阿里字节团队「Wayo」AI闭环全球定制采购全链路

“Wayo不是SaaS，不是单点AI工具，而是直接交付结果的端到端闭环服务，这是我们和同行业其他产品的核心区别。”传统外贸服务模式难以规模化扩张，Julia认为AI正是解决“优质服务+规模化”矛盾的有效解法。

来自主题: AI资讯

9079 点击 2026-05-12 22:48

MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070即可实时运行

你有没有想过，不用联网、仅用一张消费级显卡，就能在个人电脑上拥有一个「边看、边听、边说、还能主动提醒」的类人 AI 助手？这就是 MiniCPM-o 4.5 所能做到的。在技术创新下，它仅凭 9B 参数，实现了业界首个端到端全双工全模态大模型，让端侧 AI 普惠成为现实。其自 2026 年 2 月模型发布以来，在 Hugging Face 上的下载量已突破 25 万+。

来自主题: AI技术研报

7623 点击 2026-04-28 13:15

CVPR 2026 | 告别倾听「扑克脸」，UniLS框架来了，刷新数字人对话SOTA

在游戏 NPC、虚拟主播、在线客服等数字人对话场景中，倾听时的 “扑克脸” 问题一直是行业长期痛点 —— 虚拟人说话时口型可以做到精准同步，但倾听时却表情僵硬、毫无反应，严重影响对话的自然感和沉浸感。盛大 AI 研究院（东京）与东京大学联合提出 UniLS（Unified Listening and Speaking），首个仅凭双轨音频即可端到端同时驱动说话和倾听面部动作的统一框架。

来自主题: AI技术研报

10217 点击 2026-04-24 09:15

教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决

今天，来自ZJU-REAL的团队带来了ClawGUI，一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架。不是三个独立工具的简单拼接，而是一条打通的流水线：用ClawGUI-RL训练，用ClawGUI-Eval评测，用OpenClaw-GUI部署，端到端验证。

来自主题: AI技术研报

8417 点击 2026-04-19 13:33

斯坦福MIT联合发布Meta-Harness，Agent端到端自己优化自己，Dspy一作Omar参与研究

去年讨论Agent落地时，重点往往是Context Engineering。大家都在琢磨怎么放 Few-shot，怎么优化 RAG 检索的文本片段。但随着 Agent 任务复杂度的上升，控制数据流向、工具调度和异常处理的底层脚手架代码，往往比单纯拼接文本对系统性能的影响更大。

来自主题: AI技术研报

8925 点击 2026-04-03 09:26