AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 多模态
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实

AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实

AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实

在无数科幻电影中,增强现实(AR)通过在人们的眼前叠加动画、文字、图形等可视化信息,让人获得适时的、超越自身感知能力的信息。

来自主题: AI技术研报
7022 点击    2025-04-29 16:32
英伟达华人硬核AI神器,「描述一切」秒变细节狂魔!仅3B逆袭GPT-4o

英伟达华人硬核AI神器,「描述一切」秒变细节狂魔!仅3B逆袭GPT-4o

英伟达华人硬核AI神器,「描述一切」秒变细节狂魔!仅3B逆袭GPT-4o

视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。

来自主题: AI资讯
8845 点击    2025-04-27 10:47
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。

来自主题: AI技术研报
6535 点击    2025-04-25 09:56
Cohere推出新一代多模态搜索模型Embed 4,在数据处理长文本建模和跨模态能力显著提升

Cohere推出新一代多模态搜索模型Embed 4,在数据处理长文本建模和跨模态能力显著提升

Cohere推出新一代多模态搜索模型Embed 4,在数据处理长文本建模和跨模态能力显著提升

2025年4月16日,Cohere 发布了其最新一代多模态搜索模型 Embed 4,在多模态数据处理、长文本建模和跨模态检索能力上实现了显著提升,进一步巩固了其在企业级 AI 搜索领域的领先地位。

来自主题: AI资讯
3849 点击    2025-04-18 10:16
谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

来自Meta和NYU的团队,刚刚提出了一种MetaQuery新方法,让多模态模型瞬间解锁多模态生成能力!令人惊讶的是,这种方法竟然如此简单,就实现了曾被认为需要MLLM微调才能具备的能力。

来自主题: AI技术研报
5789 点击    2025-04-13 14:11
首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

来自主题: AI技术研报
6869 点击    2025-04-10 10:20
jina-reranker-m0 全新多模态多语言重排器

jina-reranker-m0 全新多模态多语言重排器

jina-reranker-m0 全新多模态多语言重排器

今天,我们正式发布jina-reranker-m0。这是一款多模态、多语言重排器(reranker),其核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。

来自主题: AI技术研报
6138 点击    2025-04-09 17:03
一文看懂多模态思维链

一文看懂多模态思维链

一文看懂多模态思维链

多模态思维链(MCoT)系统综述来了!

来自主题: AI技术研报
5562 点击    2025-03-25 10:17