AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

随着视频内容的重要性日益提升,如何处理理解长视频成为多模态大模型面临的关键挑战。长视频理解能力,对于智慧安防、智能体的长期记忆以及多模态深度思考能力有着重要价值。

来自主题: AI技术研报
7575 点击    2025-04-05 14:07
用多模态模型,写新一代爬虫

用多模态模型,写新一代爬虫

用多模态模型,写新一代爬虫

字节有一个很实用但不怎么火的项目,叫 Midscene.js,Chrome 商店上的安装数仅有 1 万,它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到,但我发现它特别适合用来写爬虫……

来自主题: AI技术研报
10792 点击    2025-04-02 16:09
动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术,成功构建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述,并通过状态变化网络实现语义特征的平滑建模,显著提升了动态语义场的建模能力。

来自主题: AI技术研报
5245 点击    2025-04-02 15:05
ChatGPT 4o 暴击设计师的同时,有产品暴击了 Perplexity

ChatGPT 4o 暴击设计师的同时,有产品暴击了 Perplexity

ChatGPT 4o 暴击设计师的同时,有产品暴击了 Perplexity

最近,ChatGPT 4o 新上线了多模态绘图功能,‘吉卜力’刷爆了特工们朋友圈的同时,也夹带着艺术设计圈朋友们的哀嚎,最让我们共情的莫过于推上的此段发言:

来自主题: AI资讯
6814 点击    2025-04-01 10:20
“计算机视觉被GPT-4o终结了”(狗头)

“计算机视觉被GPT-4o终结了”(狗头)

“计算机视觉被GPT-4o终结了”(狗头)

一夜之间,CV被大模型“解决”了(狗头)。万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。

来自主题: AI资讯
8255 点击    2025-03-30 10:43
GPT-4o的多模态生图,让整个设计圈都开始emo了。

GPT-4o的多模态生图,让整个设计圈都开始emo了。

GPT-4o的多模态生图,让整个设计圈都开始emo了。

GPT4o的多模态生图前天上线之后。经过两天的发酵,含金量还在不断提升。

来自主题: AI资讯
9988 点击    2025-03-28 15:28
DeepSeek逼出谷歌新推理模型:40分优势超GPT4.5登顶竞技场,支持原生多模态,但依然败给了“竹竿问题”

DeepSeek逼出谷歌新推理模型:40分优势超GPT4.5登顶竞技场,支持原生多模态,但依然败给了“竹竿问题”

DeepSeek逼出谷歌新推理模型:40分优势超GPT4.5登顶竞技场,支持原生多模态,但依然败给了“竹竿问题”

又双叒,抢在OpenAI直播之前,谷歌Gemini 2.5系列来了。首个版本Pro Experimental一登场就抢下大模型竞技场第一名,并且整整比GPT-4.5高出40分Gemini 2.5同样是推理模型,用Jeff Dean的说法是:

来自主题: AI资讯
8924 点击    2025-03-26 08:40