AI资讯新闻榜单内容搜索-多模态

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器，实现了对多角色外观、表情、动作的精确控制

来自主题: AI技术研报

10336 点击 2025-03-07 14:15

智源BGE-VL拍照提问即可精准搜，1/70数据击穿多模态检索天花板！

智源联手多所顶尖高校发布的多模态向量模型BGE-VL，重塑了AI检索领域的游戏规则。它凭借独创的MegaPairs合成数据技术，在图文检索、组合图像检索等多项任务中，横扫各大基准刷新SOTA。

来自主题: AI技术研报

5434 点击 2025-03-07 10:34

司南首期多模态模型闭源榜单发布！48个模型同台竞技，谁将脱颖而出？

基于闭源评测基准，近期司南针对国内外主流多模态大模型进行了全面评测，现公布司南首期多模态模型闭源评测榜单。首期榜单共包含 48 个多模态模型，其中包含：3 个国内 API 模型：GLM-4v-Plus-20250111 (智谱)，Step-1o (阶跃)，BailingMM-Pro-0120 (蚂蚁)

来自主题: AI技术研报

10402 点击 2025-03-06 19:45

智源开源多模态向量模型BGE-VL：多模态检索新突破

BGE 系列模型自发布以来广受社区好评。近日，智源研究院联合多所高校开发了多模态向量模型 BGE-VL，进一步扩充了原有生态体系。

来自主题: AI技术研报

8905 点击 2025-03-06 17:05

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

8143 点击 2025-03-05 20:42

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

o1/DeepSeek-R1背后秘诀也能扩展到多模态了！

来自主题: AI技术研报

5215 点击 2025-03-05 13:39

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括：（1）回溯性：每轮修改文本可能涉及历史参考图像信息（如保留特定属性），要求算法回溯利用多轮历史信息；（2）多样化：FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍，且交互轮次数量接近其27倍，提供了丰富的多模态检索场景。

来自主题: AI技术研报

8478 点击 2025-03-05 08:46