AI资讯新闻榜单内容搜索-训练

还得是华为！Pangu Ultra MoE架构：不用GPU，你也可以这样训练准万亿MoE大模型

Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型，此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告，进一步披露了这个模型的细节。

来自主题: AI技术研报

10215 点击 2025-05-29 16:47

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型（Vision-Language Models, VLMs），为真实环境中的机器人操作任务提供了极具潜力的解决方案。

来自主题: AI技术研报

10413 点击 2025-05-29 16:33

搜索Agent最新高效推理框架：吞吐量翻3倍、延迟降至1/5，还不牺牲答案质量丨南开& UIUC研究

AI越来越聪明，但如果它们反应慢，效率低，也难以满足我们的需求。

来自主题: AI技术研报

7455 点击 2025-05-29 15:19

市盈率超 500 倍，AI 巨头 Palantir 的璀璨与迷思

全球最贵估值科技公司，AI 巨头 Palantir 如何合理定价？

来自主题: AI技术研报

10999 点击 2025-05-29 15:18

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

你是否曾对大语言模型（LLMs）下达过明确的“长度指令”？

来自主题: AI技术研报

9749 点击 2025-05-29 15:12

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

复刻DeepSeek-R1的长思维链推理，大模型强化学习新范式RLIF成热门话题。

来自主题: AI技术研报

9717 点击 2025-05-29 15:10

奖励是假的，能让Qwen提升25%性能却是真的！

即使RLVR（可验证奖励强化学习）使用错误的奖励信号，Qwen性能也能得到显著提升？

来自主题: AI技术研报

9585 点击 2025-05-29 15:01

SOTA大模型遇上加密数据评测：Qwen3未破10%，o1也栽了丨上海AI Lab等联合研究

大语言模型遇上加密数据，即使是最新Qwen3也直冒冷汗！

来自主题: AI技术研报

8680 点击 2025-05-29 14:59

成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要，近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力，但现有方法在训练过程中面临两大核心挑战：

来自主题: AI技术研报

6611 点击 2025-05-29 14:48

原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作，首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT（Joint Diffusion Transformer）框架实现了图像 → 动态视频 + 声音的高质量联合生成。

来自主题: AI技术研报

9817 点击 2025-05-29 14:20