AI资讯新闻榜单内容搜索-开源多模态

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器，实现了对多角色外观、表情、动作的精确控制

来自主题: AI技术研报

11448 点击 2025-03-07 14:15

智源开源多模态向量模型BGE-VL：多模态检索新突破

BGE 系列模型自发布以来广受社区好评。近日，智源研究院联合多所高校开发了多模态向量模型 BGE-VL，进一步扩充了原有生态体系。

来自主题: AI技术研报

9887 点击 2025-03-06 17:05

全球最大开源视频模型，现在也Created in China了，阶跃出品

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！新模型共2款：全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型，其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议，可任意编辑和商业应用。

来自主题: AI资讯

9558 点击 2025-02-18 14:43

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

DeepSeek大爆出圈，现在连夜发布新模型——多模态Janus-Pro-7B，发布即开源。在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。

来自主题: AI资讯

12210 点击 2025-01-28 10:54

刚刚，多模态推理模型QVQ全新开源

QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中，QVQ 取得了 70.3 的优异成绩，并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理，QVQ 在视觉推理任务中展现出增强的能力，尤其在需要复杂分析思维的领域表现出色。

来自主题: AI资讯

12007 点击 2024-12-25 08:47