AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。

来自主题: AI技术研报
7931 点击    2024-12-11 16:46
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

Mamba 是一种具有线性计算复杂度的状态空间模型,它能够以线性计算复杂度实现对输入序列的有效建模,在近几个月受到了广泛的关注。

来自主题: AI技术研报
8616 点击    2024-12-11 09:33
深度|吴恩达BULIT2024演讲:当下最重要的技术是Agentic AI;视觉AI正成为下一个重要趋势

深度|吴恩达BULIT2024演讲:当下最重要的技术是Agentic AI;视觉AI正成为下一个重要趋势

深度|吴恩达BULIT2024演讲:当下最重要的技术是Agentic AI;视觉AI正成为下一个重要趋势

生成式AI极大加速了AI应用的开发流程,从过去需要数月的周期缩短到仅需数天。这种变化推动了快速原型设计和实验的新模式,帮助开发者在短时间内尝试多种方案并专注于有效的解决方案,同时倡导“快速行动并负责任”的开发理念。

来自主题: AI资讯
9925 点击    2024-12-10 14:44
首个VR端3D角色扮演AI发布!南洋理工公开SOLAMI技术报告,端到端VLA模型驱动,唱跳都能陪你玩

首个VR端3D角色扮演AI发布!南洋理工公开SOLAMI技术报告,端到端VLA模型驱动,唱跳都能陪你玩

首个VR端3D角色扮演AI发布!南洋理工公开SOLAMI技术报告,端到端VLA模型驱动,唱跳都能陪你玩

SOLAMI是一个创新的VR端3D角色扮演AI系统,用户可以通过语音和肢体语言与虚拟角色进行沉浸式互动。该系统利用先进的社交视觉-语言-行为模型,结合合成的数据集,提供更自然的交流体验,超越了传统的文本和语音交互。

来自主题: AI技术研报
9140 点击    2024-12-09 15:14
实测丨当 o1 pro 遇上最权威的智商测试,结果竟然是……

实测丨当 o1 pro 遇上最权威的智商测试,结果竟然是……

实测丨当 o1 pro 遇上最权威的智商测试,结果竟然是……

前天 OpenAI 发布了最强的 o1 pro mode 模型,而 pricing 随之提高到了 $200/月。特工成员果断地付款后,选取了门萨IQ测试题来全面分析 o1 pro 在视觉模式识别与逻辑推理任务上的表现。

来自主题: AI技术研报
10454 点击    2024-12-09 10:03
语言已显苍白,欢迎着陆AI大世界模型

语言已显苍白,欢迎着陆AI大世界模型

语言已显苍白,欢迎着陆AI大世界模型

作为计算机视觉领域的开拓者,李飞飞在人工智能革命中扮演了重要角色。她的新回忆录《我所看到的世界》(The Worlds I See)详细讲述了她从学术到技术突破的旅程,以及如何在人工智能的最前沿找到自己的使命。

来自主题: AI资讯
8109 点击    2024-12-08 12:14
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

以 GPT4V 为代表的多模态大模型(LMMs)在大语言模型(LLMs)上增加如同视觉的多感官技能,以实现更强的通用智能。虽然 LMMs 让人类更加接近创造智慧,但迄今为止,我们并不能理解自然与人工的多模态智能是如何产生的。

来自主题: AI技术研报
7876 点击    2024-12-07 15:02
三大AI顶流,争着“造世界”

三大AI顶流,争着“造世界”

三大AI顶流,争着“造世界”

当前构建数字世界有三条路线:OpenAI的Sora追求视觉真实,谷歌的Genie 2注重实时交互,World Labs专注空间准确。这三条路线各有优势,也各有无法在短期内解决的问题。

来自主题: AI资讯
8609 点击    2024-12-06 09:44
ShowUI:当前最好的 UI Agent 开源模型?

ShowUI:当前最好的 UI Agent 开源模型?

ShowUI:当前最好的 UI Agent 开源模型?

Show Lab 和微软推出 ShowUI,这是一个刚刚开源的 UI Agent 模型,在中文 APP 定位和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法,该模型在有限的训练数据下实现了非常棒的性能。

来自主题: AI技术研报
9486 点击    2024-12-06 09:41
AI视觉领域明星「Luma AI」完成9000万美元融资,亚马逊、AMD、韩华投了

AI视觉领域明星「Luma AI」完成9000万美元融资,亚马逊、AMD、韩华投了

AI视觉领域明星「Luma AI」完成9000万美元融资,亚马逊、AMD、韩华投了

《智能涌现》获悉,美国硅谷AI视觉领域企业“Luma AI”近日完成新一轮融资,金额为9000万美元。《智能涌现》获悉,美国硅谷AI视觉领域企业“Luma AI”近日完成新一轮融资,金额为9000万美元。

来自主题: AI资讯
7350 点击    2024-12-06 09:18