AI资讯新闻榜单内容搜索-多模态训练

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态训练

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升 34.74%，多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报

6775 点击 2026-03-11 09:22

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据，结合稀疏推理（Sparse-Thinking）与衰减持续损失（decaying continual loss），大幅提升了智能体的可扩展性和泛化性。

来自主题: AI技术研报

8721 点击 2025-11-01 09:42

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

多模态大模型通常是在大型预训练语言模型（LLM）的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力，但经过多模态训练后，这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报

8076 点击 2025-07-15 10:07

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

LeCun谢赛宁等研究人员通过新模型Web-SSL验证了SSL在多模态任务中的潜力，证明其在扩展模型和数据规模后，能媲美甚至超越CLIP。这项研究为无语言监督的视觉预训练开辟新方向，并计划开源模型以推动社区探索。

来自主题: AI技术研报

9003 点击 2025-04-07 15:09

多模态训练后模型能力雪崩，上海AI Lab全面探索MLLM偏好对齐与模态融合

多模态训练后模型能力雪崩，上海AI Lab全面探索MLLM偏好对齐与模态融合

多模态训练后模型能力雪崩，上海AI Lab全面探索MLLM偏好对齐与模态融合

在实际应用过程中，闭源模型（GPT-4o）等在回复的全面性、完备性、美观性等方面展示出了不俗的表现。

来自主题: AI技术研报

8842 点击 2025-03-13 10:15

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

GRPO训练又有新的工具链可以用，这次来自于ModelScope魔搭社区。

来自主题: AI技术研报

10786 点击 2025-03-09 13:26

上一页当前第1页,共1页下一页