AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收

LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收

LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收

LeCun 这次不是批评 LLM,而是亲自改造。当前 LLM 的训练(包括预训练、微调和评估)主要依赖于在「输入空间」进行重构与生成,例如预测下一个词。 而在 CV 领域,基于「嵌入空间」的训练目标,如联合嵌入预测架构(JEPA),已被证明远优于在输入空间操作的同类方法。

来自主题: AI技术研报
7431 点击    2025-09-23 10:12
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想:推理计算是否可以替代缺失的监督?本文认为答案是肯定的,他们提出了一种名为 CaT(Compute as Teacher)的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答案时,也能为大模型提供监督信号。

来自主题: AI技术研报
5496 点击    2025-09-23 10:09
Prompt的尽头,居然是MBTI。

Prompt的尽头,居然是MBTI。

Prompt的尽头,居然是MBTI。

论文的标题很学术,叫《心理学增强AI智能体》但是大白话翻译一下就是,想要让大模型更好地完成任务,你们可能不需要那些动辄几百上千字的复杂Prompt,不需要什么思维链、思维图谱,甚至不需要那些精巧的指令。

来自主题: AI技术研报
7551 点击    2025-09-23 10:08
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。

来自主题: AI技术研报
6287 点击    2025-09-23 10:07
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。

来自主题: AI技术研报
10199 点击    2025-09-22 16:11
IBM发布LLM工具调用判断器ToolRM,工具调用准确率提高25%

IBM发布LLM工具调用判断器ToolRM,工具调用准确率提高25%

IBM发布LLM工具调用判断器ToolRM,工具调用准确率提高25%

Tool-Calling作为Agent的核心模块,智能体的双手,这项关键能力允许 LLM 调用外部函数,例如应用程序接口(APIs)、数据库、计算器和搜索引擎,决定了AI Agent的可执行边界。

来自主题: AI技术研报
8035 点击    2025-09-22 10:34
工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

构建一个工业级高仿真 3D 虚拟世界,需要投入多少时间与人力?如果仅需一段描述、一张草图,AI 便可快速自动生成 —— 你相信吗?

来自主题: AI技术研报
7347 点击    2025-09-22 10:06
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。

来自主题: AI技术研报
6692 点击    2025-09-22 09:21
全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

近日,明略科技推出的基于多模态基础模型的网页 GUI 智能体 Mano,凭借其强大的性能,在行业内公认的两大挑战基准 ——Mind2Web 和 OSWorld 上同时刷新纪录,取得当前最佳成绩(SOTA)。

来自主题: AI技术研报
9196 点击    2025-09-21 19:20
Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

基于这一挑战,我们提出了 Mini-Omni-Reasoner——一种专为对话场景打造的实时推理新范式。它通过「Thinking-in-Speaking」实现边思考边表达,既能实时反馈、输出自然流畅的语音内容,又能保持高质量且可解释的推理过程。

来自主题: AI技术研报
7289 点击    2025-09-21 11:10