AI资讯新闻榜单内容搜索-多模态

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

在InternVL-2.5上实现10倍吞吐量提升，模型性能几乎无损失。

来自主题: AI技术研报

8050 点击 2025-04-03 16:12

用多模态模型，写新一代爬虫

字节有一个很实用但不怎么火的项目，叫 Midscene.js，Chrome 商店上的安装数仅有 1 万，它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到，但我发现它特别适合用来写爬虫……

来自主题: AI技术研报

11034 点击 2025-04-02 16:09

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术，成功构建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述，并通过状态变化网络实现语义特征的平滑建模，显著提升了动态语义场的建模能力。

来自主题: AI技术研报

5416 点击 2025-04-02 15:05

ChatGPT 4o 暴击设计师的同时，有产品暴击了 Perplexity

最近，ChatGPT 4o 新上线了多模态绘图功能，‘吉卜力’刷爆了特工们朋友圈的同时，也夹带着艺术设计圈朋友们的哀嚎，最让我们共情的莫过于推上的此段发言：

来自主题: AI资讯

7011 点击 2025-04-01 10:20

“计算机视觉被GPT-4o终结了”（狗头）

一夜之间，CV被大模型“解决”了（狗头）。万物皆可吉卜力之后，GPT-4o原生多模态图像生成更多玩法被开发出来。万物皆可吉卜力之后，GPT-4o原生多模态图像生成更多玩法被开发出来。

来自主题: AI资讯

8430 点击 2025-03-30 10:43

GPT-4o的多模态生图，让整个设计圈都开始emo了。

GPT4o的多模态生图前天上线之后。经过两天的发酵，含金量还在不断提升。

来自主题: AI资讯

10211 点击 2025-03-28 15:28

DeepSeek逼出谷歌新推理模型：40分优势超GPT4.5登顶竞技场，支持原生多模态，但依然败给了“竹竿问题”

又双叒，抢在OpenAI直播之前，谷歌Gemini 2.5系列来了。首个版本Pro Experimental一登场就抢下大模型竞技场第一名，并且整整比GPT-4.5高出40分Gemini 2.5同样是推理模型，用Jeff Dean的说法是：

来自主题: AI资讯

9130 点击 2025-03-26 08:40

GPT-4o多模态生图正式上线 - 用嘴改图，此为王道。

在ChatGPT上，当你画图的选项变成这个的时候，就说明用的不是Dalle3了，而是4o。目前，有两个渠道可以使用4o Image Generation。一个事ChatGPT，一个是单独的那个Sora的网站。

来自主题: AI资讯

11021 点击 2025-03-26 08:10

DeepSeek解封“算力智子”后，数据成AI未来发展关键

在引发全球关注的同时，全球资本对中国科技资产的重新评估与 AI 投资的底层逻辑也悄然发生转变。尤其是在大模型领域，过去巨额投入却屡次推迟的ChatGPT5和本就步入下半场的国内六小龙，将直面 DeepSeek这匹黑马的强劲冲击。中国AI企业在DeepSeek突破了“算力禁运”之后，正面临高质量数据稀缺的挑战，尤其是高质量、低成本、多种类、多模态的数据，将成为未来 AI 产业发展的核心关键。

来自主题: AI技术研报

9908 点击 2025-03-25 15:02

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了——

来自主题: AI资讯

11267 点击 2025-03-25 11:47