AI资讯新闻榜单内容搜索-多模态

给Transformer变个形，LLM竟能变得更聪明

2026 年 6 月，大模型行业正在经历一场前所未有的「开源海啸」：英伟达放出了 550B 参数的混合架构模型，谷歌送出多模态的 Gemma 新版本，智谱用最宽松的协议全量开源了自家旗舰模型。

来自主题: AI技术研报

8270 点击 2026-06-30 10:20

OMG多模态人形机器人运动生成框架：一句话、一段音乐即可操纵机器人完成全身动作

现阶段大多数人形机器人的运动控制还局限于 “有参考才能动” 的被动跟踪模式。

来自主题: AI技术研报

9947 点击 2026-06-29 15:50

葬AI基准测试更新：Seed 2.1 Pro急需摆脱平庸的重力

豆包产品无敌，但Seed模型一直不温不火，大伙对它的印象就两个：工资高，隔三差五就有千万年包上亿年包新闻，也不知道真假；多模态，但编程能力不太行。

来自主题: AI资讯

7561 点击 2026-06-29 09:19

独家丨清研精准完成数亿元 B3 轮融资，目标打造物理 AI 数据基础设施

清华系物理AI企业「清研精准」已于近日完成数亿元B3轮融资，本轮融资由北京市绿色能源基金、北汽产投领投，裕隆集团跟投。据悉，该轮资金将会用于核心人才招募、多模态数采设备的研发与规模化部署，以及算力采购与模型训练基础设施建设等方向。

来自主题: AI资讯

9258 点击 2026-06-29 09:11

CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

刚刚，Om AI发布全球首个面向物理世界的端侧流式多模态模型系列——VLX。VLX主打真实世界的端侧与具身场景，总共三款模型，三天连发：这三款模型连起来，不仅构成了多模态模型持续感知、精准定位、行动决策的能力闭环。

来自主题: AI技术研报

9495 点击 2026-06-28 11:14

单个tokenizer胜任图像视频理解生成！南大&腾讯混元HYDRA打通多模态统一难题

南大王利民团队&腾讯混元的HYDRA系列（HYDRA，HYDRA-X）工作挑战了这个惯例，用一个基于ViT的统一视觉Tokenizer，帮助原生多模态模型更好地“看懂”和“创作”。训练一个基于ViT的Unified Tokenizer，使其同时具有理解和生成的能力，进而同时作为理解和生成的Autoencoder，来支持原生多模态模型（Unified Multimodal Models）的训练。

来自主题: AI技术研报

8731 点击 2026-06-28 11:13