AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?

从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?

从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?

近年来,文生图模型(Text-to-Image Models)飞速发展,从早期的 GAN 架构到如今的扩散和自回归模型,生成图像的质量和细节表现力实现了跨越式提升。这些模型大大降低了高质量图像创作的门槛,为设计、教育、艺术创作等领域带来了前所未有的便利。

来自主题: AI技术研报
6479 点击    2025-08-12 11:31
Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制

Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制

Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

来自主题: AI技术研报
5952 点击    2025-08-12 11:07
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

扩散语言模型(DLMs)是超强的数据学习者。 token 危机终于要不存在了吗? 近日,新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。

来自主题: AI资讯
5518 点击    2025-08-11 10:53
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。

来自主题: AI技术研报
5891 点击    2025-08-11 10:17
超低标注需求,实现医学图像分割!UCSD提出三阶段框架GenSeg

超低标注需求,实现医学图像分割!UCSD提出三阶段框架GenSeg

超低标注需求,实现医学图像分割!UCSD提出三阶段框架GenSeg

GenSeg用AI生成高质量医学图像及对应分割标注,在仅有几十张样本时也能训练出媲美传统深度模型的分割系统,显著降低医生手工标注负担。

来自主题: AI技术研报
5716 点击    2025-08-10 15:05
告别数据标注!SQLM让大模型自我博弈,RL自主推理新范式!

告别数据标注!SQLM让大模型自我博弈,RL自主推理新范式!

告别数据标注!SQLM让大模型自我博弈,RL自主推理新范式!

一句话概括,本文探索了语言模型的终极内卷模式:不再依赖人类投喂,通过“自问自答”的左右互搏,硬生生把自己逼成了学霸。AlphaGo下棋我懂,这大模型自己给自己出数学题做就有点离谱了,堪称AI界的“闭关修炼”,出关即无敌。

来自主题: AI资讯
7302 点击    2025-08-10 14:29
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步

在可验证强化学习(RLVR)的推动下,大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中,LLM 往往需要结合外部工具进行多轮交互,现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报
5691 点击    2025-08-10 13:29
史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”

史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”

史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了! 上海创智学院、上海交通大学(GAIR Lab)发布MegaScience。该数据集包含约125万条问答对及其参考答案,广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域,旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。

来自主题: AI技术研报
5626 点击    2025-08-09 15:52
首篇WebAgents综述:大模型赋能AI Agent,实现下一代Web自动化

首篇WebAgents综述:大模型赋能AI Agent,实现下一代Web自动化

首篇WebAgents综述:大模型赋能AI Agent,实现下一代Web自动化

互联网技术的发展极大地便利了我们的生活,但许多网络任务重复繁琐,降低了效率。为了解决这一问题,研究人员正在开发基于大型基础模型(LFMs)的智能体——WebAgents,通过感知环境、规划推理和执行交互来完成用户指令,显著提升便利性。香港理工大学的研究人员从架构、训练和可信性等角度,总结了WebAgents的代表性方法,全面梳理了相关研究进展。

来自主题: AI技术研报
6947 点击    2025-08-09 11:24