AI资讯新闻榜单内容搜索-多模态模型

Seedream 4.0大战Nano Banana、GPT-4o？EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段，图像编辑（Image Editing）正逐渐取代一次性生成，成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型？

来自主题: AI技术研报

7717 点击 2025-10-25 14:26

MIT成果登Nature正刊：90天，「AI科学家」完成3500次电化学测试

美国麻省理工学院李巨团队在国际顶尖学术期刊Nature上发表了一篇研究论文，展示了一种多模态机器人平台CRESt（Copilot for Real-world Experimental Scientists），通过将多模态模型（融合文本知识、化学成分以及微观结构信息）驱动的材料设计与高通量自动化实验相结合，大幅提升催化剂的研发速度和质量。

来自主题: AI技术研报

8718 点击 2025-10-20 15:36

是RAG已死，还是RAG Anything，All in RAG？

每隔一阵子，总有人宣告“RAG已死”：上下文越来越长、端到端多模态模型越来越强，好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景，你会发现死掉的只是“只切文本的旧RAG”。

来自主题: AI技术研报

7510 点击 2025-10-20 12:08

LiblibAI 正式推出2.0，十字路口第一时间评测：从 1.0 到 2.0，什么变了？

2 天前，国内最大的 AI 多模态模型社区之一的 LiblibAI 进行了一次大升级，正式推出了 2.0 版本。对许多创作者而言，这个平台并不陌生，LiblibAI 一直是国内开源绘画与 LoRA 文化的重要发源地，也常被称为中国版的 CivitAI （大家常说的 C 站）。

来自主题: AI资讯

10114 点击 2025-10-19 10:45

多模态大模型首次实现像素级推理！3B参数超越72B传统模型，NeurIPS 2025收录

多模态大模型首次实现像素级推理，指代、分割、推理三大任务一网打尽！

来自主题: AI技术研报

9711 点击 2025-10-17 10:01

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报

8080 点击 2025-10-13 15:58

深度｜“长眼睛”的奇多多AI学伴，凭什么能爆卖10000台？

奇多多AI学伴机是由无界方舟发布的国内首款基于「端到端实时多模态互动模型」的AI互动机器人，于本月2025外滩大会首次亮相。京东预售仅上线一周，销量便突破了10000台，在看似红海的儿童早教市场掀起波澜。在功能体验方面，它带来了三大突破：能“看”世界的眼睛、堪比真人的低延迟反馈速度、能“成长”的个性化陪伴感。

来自主题: AI资讯

9086 点击 2025-09-25 11:05

8B硬刚72B！MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5的技术报告正式发布！报告提出统一的3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。

来自主题: AI技术研报

8846 点击 2025-09-24 10:52

理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA

谢集，浙江大学竺可桢学院大四学生，于加州大学伯克利分校（BAIR）进行访问，研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell，第三作者为华盛顿大学的 Luke Zettlemoyer，通讯作者是 XuDong Wang, Meta GenAl Research Scientist、

来自主题: AI技术研报

6789 点击 2025-09-21 10:42

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

今天，我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，看得准、看得快，看得长！高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA，且性能超过 Qwen2.5-VL 72B，堪称最强端侧多模态模型。

来自主题: AI资讯

10965 点击 2025-08-26 23:30