AI资讯新闻榜单内容搜索-多模态

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

大家或许都有过这样的体验：看完一部喜欢的动漫，总会心血来潮地想去 “圣地巡礼”；刷到别人剪辑精美的旅行 vlog，也会忍不住收藏起来，想着哪天亲自走一遍同样的路线。旅行与影像的结合，总是能勾起人们的

来自主题: AI技术研报

9387 点击 2025-10-15 12:30

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

模型众多，该如何选择？ GPT-5：OpenAI的最新旗舰模型，统一智能系统，GPT-5 集成了多个模型，自动根据任务复杂度选择最适合的模型进行处理，多模态首选。 GPT-5 Thinking：GPT

来自主题: AI产品测评

14815 点击 2025-10-15 12:29

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出，通过低成本对齐高效连接开源视觉编码器与大语言模型，使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及，明显缩小了与顶级闭源模型的差距，标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报

10431 点击 2025-10-15 12:12

前端危！Gemini 3内测结果获网友一致好评，“有史以来最强前端开发模型”

谷歌下一代旗舰模型Gemini 3未发布便已悄然走红！原因很简单：强，实在是太强了。在国外社交媒体平台𝕏上，一大波网友激动地分享了Gemini 3的内测结果——从曝光的这些案例来看，Gemini 3尤为擅长前端、SVG矢量图生成，而且多模态能力变得更强。

来自主题: AI资讯

9299 点击 2025-10-13 18:42

告别「解码器饥饿」！中国科学院NeurIPS推SpaceServe，高并发克星

在中国科学院计算技术研究所入选NeurIPS 2025的新论文中，提出了SpaceServe的突破性架构，首次将LLM推理中的P/D分离扩展至多模态场景，通过EPD三阶解耦与「空分复用」，系统性地解决了MLLM推理中的行头阻塞难题。

来自主题: AI技术研报

9274 点击 2025-10-13 16:08

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报

8629 点击 2025-10-13 15:58

全球首个真实世界具身多模态数据集，它石智航交卷，比特斯拉还早6个月

全球首个真实世界具身多模态数据集，它来了！刚刚，它石智航发布全球首个大规模真实世界具身VLTA（Vision-Language-Tactile-Action）多模态数据集World In Your Hands（WIYH）。

来自主题: AI技术研报

11649 点击 2025-10-11 12:06

Code2Video：代码驱动、智能体协同、精准可控的教学视频生成

本研究由新加坡国立大学 ShowLab 团队主导完成。共一作者 Yanzhe Chen 陈彦哲（博士生）与 Kevin Qinghong Lin 林庆泓（博士生）均来自 ShowLab@NUS，分别聚焦于多模态理解以及智能体（Agent）研究。项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。

来自主题: AI技术研报

10619 点击 2025-10-11 11:30

Qwen要做机器人了：林俊旸官宣成立具身智能团队

昨天，阿里通义千问大语言模型负责人林俊旸在社交媒体上官宣，他们在 Qwen 内部组建了一个小型机器人、具身智能团队，同时表示「多模态基础模型正转变为基础智能体，这些智能体可以利用工具和记忆通过强化学习进行长程推理，它们绝对应该从虚拟世界走向物理世界」。

来自主题: AI资讯

10328 点击 2025-10-09 14:24

多模态检索新突破，用软标签打破传统刚性映射约束，全面超越CLIP｜AAAI 2026 Oral

基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。该方法首先通过全局检索构建潜在困难负例集，随后创新性地引入“MLLM-as-a-Judge”机制：利用MLLM对查询-候选对进行语义对齐评估，生成软语义匹配分数。

来自主题: AI技术研报

6896 点击 2025-10-06 21:53