AI资讯新闻榜单内容搜索-多模态

GLM-4开源版本终于来了：超越Llama3，多模态比肩GPT4V，MaaS平台也大升级

最新版本大模型，6 分钱 100 万 Token。

来自主题: AI资讯

9533 点击 2024-06-05 22:42

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

只用强化学习来微调，无需人类反馈，就能让多模态大模型学会做决策！

来自主题: AI技术研报

10899 点击 2024-06-04 17:23

多模态大模型+自动驾驶=？ECCV'24这场Workshop开启招募啦

多模态，已经成为大模型最重要的发展方向之一。

来自主题: AI资讯

10594 点击 2024-06-03 11:14

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 - 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。

来自主题: AI技术研报

9772 点击 2024-06-02 14:38

AI读论文新神器：多栏密集文字、中英图文混排文档都能读的多模态大模型Fox｜旷视

虽然多模态大模型都能挑西瓜了，但理解复杂文档方面还是差点意思。

来自主题: AI技术研报

11221 点击 2024-06-01 18:49

多语言大模型新SOTA！Cohere最新开源Aya-23：支持23种语言，8B/35B可选

Aya23在模型性能和语言种类覆盖度上达到了平衡，其中最大的35B参数量模型在所有评估任务和涵盖的语言中取得了最好成绩。

来自主题: AI技术研报

10556 点击 2024-05-31 18:18

多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图

多模态大模型，也有自己的CoT思维链了！厦门大学&腾讯优图团队提出一种名为“领唱员（Cantor）”的决策感知多模态思维链架构，无需额外训练，性能大幅提升。

来自主题: AI技术研报

12395 点击 2024-05-28 20:56

群核科技（酷家乐）陈卓：用多模态AI助理赋能设计产业，用合成数据服务反哺AI | 新质生产力·AI Partner大会

AI能够帮助我们给产业提供更好的产品和服务，同时生长出来的合成数据服务反哺到AI，能够让AI产生更大的加速度。

来自主题: AI资讯

11964 点击 2024-05-28 10:27

港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

当前，多模态大模型（MLLM）在多项视觉任务上展现出了强大的认知理解能力。然而大部分多模态大模型局限于单向的图像理解，难以将理解的内容映射回图像上。比如，模型能轻易说出图中有哪些物体，但无法将物体在图中准确标识出来。定位能力的缺失直接限制了多模态大模型在图像编辑，自动驾驶，机器人控制等下游领域的应用。针对这一问题，港大和字节跳动商业化团队的研究人员提出了一种新范式Groma

来自主题: AI资讯

9811 点击 2024-05-27 16:31

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期致力于深度学习、多模态、计算机视觉等研究领域。

来自主题: AI技术研报

11249 点击 2024-05-27 16:24