AI资讯新闻榜单内容搜索-多模态模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态模型

理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA

理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA

理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA

谢集，浙江大学竺可桢学院大四学生，于加州大学伯克利分校（BAIR）进行访问，研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell，第三作者为华盛顿大学的 Luke Zettlemoyer，通讯作者是 XuDong Wang, Meta GenAl Research Scientist、

来自主题: AI技术研报

7144 点击 2025-09-21 10:42

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

今天，我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，看得准、看得快，看得长！高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA，且性能超过 Qwen2.5-VL 72B，堪称最强端侧多模态模型。

来自主题: AI资讯

11731 点击 2025-08-26 23:30

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V，在42个公开榜单中41项夺得SOTA！其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。

来自主题: AI资讯

9565 点击 2025-08-12 13:04

刚刚，智谱开源了他们的最强多模态模型，GLM-4.5V。

刚刚，智谱开源了他们的最强多模态模型，GLM-4.5V。

刚刚，智谱开源了他们的最强多模态模型，GLM-4.5V。

上上周一的晚上，智谱开源了当今最好的模型之一，GLM-4.5。然后，这个周一，又是突如其来的，开源了他们现在最好的多模态模型： GLM-4.5v。

来自主题: AI资讯

8281 点击 2025-08-12 10:58

国资+腾讯入局！阶跃星辰正在新一轮5亿融资

国资+腾讯入局！阶跃星辰正在新一轮5亿融资

国资+腾讯入局！阶跃星辰正在新一轮5亿融资

近日，上海人工智能独角兽阶跃星辰宣布，正在进行新一轮融资，金额预计超过5 亿美元，或成为 2025 年国内大模型行业最大单笔融资。本轮融资由上海国有资本投资有限公司（简称 “上海国投”）等战略投资方领投，资金将重点用于多模态模型研发、推理效率优化及智能终端场景落地。

来自主题: AI资讯

10843 点击 2025-07-27 20:32

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校（UIUC）与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报

8989 点击 2025-07-11 16:23

vivo发布端侧多模态模型，只有3B可理解GUI界面，20项评测表现亮眼

vivo发布端侧多模态模型，只有3B可理解GUI界面，20项评测表现亮眼

vivo发布端侧多模态模型，只有3B可理解GUI界面，20项评测表现亮眼

vivo AI Lab发布AI多模态新模型了，专门面向端侧设计，紧凑高效～

来自主题: AI技术研报

8854 点击 2025-07-10 11:30

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”！字节&NTU最新研究，优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制，首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报

8602 点击 2025-07-09 10:35

拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

就在昨夜，阿里带着全新多模态模型Qwen-VLo开启炸场模式。据介绍，Qwen-VLo在阿里原有的多模态理解和生成能力上进行了全面升级，具备三大亮点：

来自主题: AI资讯

9250 点击 2025-06-28 17:57

谷歌开源Gemma 3n：2G内存就能跑，100亿参数内最强多模态模型

谷歌开源Gemma 3n：2G内存就能跑，100亿参数内最强多模态模型

谷歌开源Gemma 3n：2G内存就能跑，100亿参数内最强多模态模型

本周五凌晨，谷歌正式发布、开源了全新端侧多模态大模型 Gemma 3n。谷歌表示，Gemma 3n 代表了设备端 AI 的重大进步，它为手机、平板、笔记本电脑等端侧设备带来了强大的多模式功能，其性能去年还只能在云端先进模型上才能体验。

来自主题: AI资讯

10833 点击 2025-06-27 09:00

上一页当前第6页,共18页下一页