AI资讯新闻榜单内容搜索-多模态大模型

银河通用王鹤通向通用机器人：合成数据驱动的具身多模态大模型

在探索迈向AGI（通用人工智能）物理世界的路径中，通用机器人被视作关键载体。

来自主题: AI资讯

10825 点击 2024-12-13 16:57

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

多模态大模型在听觉上，居然也出现了「9.11>9.8」的现象，音量大小这种简单问题都识别不了！港中文、斯坦福等大学联合发布的AV-Odyssey基准测试，包含26个视听任务，覆盖了7种声音属性，跨越了10个不同领域，确保测试的深度和广度。

来自主题: AI技术研报

8163 点击 2024-12-11 16:46

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

以 GPT4V 为代表的多模态大模型（LMMs）在大语言模型（LLMs）上增加如同视觉的多感官技能，以实现更强的通用智能。虽然 LMMs 让人类更加接近创造智慧，但迄今为止，我们并不能理解自然与人工的多模态智能是如何产生的。

来自主题: AI技术研报

8096 点击 2024-12-07 15:02

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

在 Minecraft 中构造一个能完成各种长序列任务的智能体，颇有挑战性。现有的工作利用大语言模型 / 多模态大模型生成行动规划，以提升智能体执行长序列任务的能力。

来自主题: AI技术研报

8338 点击 2024-12-06 17:58

多模态慢思考：分解原子步骤以解决复杂数学推理

AtomThink 是一个包括 CoT 注释引擎、原子步骤指令微调、政策搜索推理的全流程框架，旨在通过将 “慢思考 “能力融入多模态大语言模型来解决高阶数学推理问题。量化结果显示其在两个基准数学测试中取得了大幅的性能增长，并能够轻易迁移至不同的多模态大模型当中。

来自主题: AI技术研报

7470 点击 2024-11-30 16:45

让具身智能机器人“下地干活”，「枢途科技」完成数百万天使轮融资

枢途科技（深圳）有限公司（以下简称「枢途科技」）近日完成数百万元天使轮融资，本轮由奇绩创坛投资，主要用于多模态大模型训练迭代、通用复合机器人结构升级等技术与产品的研发和交付。

来自主题: AI资讯

8855 点击 2024-11-30 16:05

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模型的 SOTA 提升到了新高度，但巨大的计算开销限制了其在很多场景下的应用。

来自主题: AI技术研报

10742 点击 2024-11-28 14:16

多模态竞技场对标90B Llama 3.2！Pixtral 12B技术报告全公开

以开源极客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。

来自主题: AI技术研报

7389 点击 2024-11-19 17:15

虚拟女友已没有前途，AI陪伴硬件或许才是未来

随着AI大模型在今年618前夕打起价格战，当以GPT-4o为代表的多模态大模型将交互体验也推向更高的层次，也意味着杀手级AI应用或许真的来到了奇点时刻。如今AI行业的创业者已经不再聚焦大模型，而是开始尝试用AI赋能具体的应用场景。

来自主题: AI资讯

5194 点击 2024-11-11 10:17

详解“端到端”下一代模型VLA，通向自动驾驶的关键跳板

近期，智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA（Vision-Language-Action Model，即视觉-语言-动作模型），拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。

来自主题: AI资讯

5515 点击 2024-11-09 09:50

AI资讯新闻榜单内容搜索-多模态大模型

银河通用王鹤 通向通用机器人：合成数据驱动的具身多模态大模型

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

多模态慢思考：分解原子步骤以解决复杂数学推理

让具身智能机器人“下地干活”，「枢途科技」完成数百万天使轮融资

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

多模态竞技场对标90B Llama 3.2！Pixtral 12B技术报告全公开

虚拟女友已没有前途，AI陪伴硬件或许才是未来

详解“端到端”下一代模型VLA，通向自动驾驶的关键跳板

银河通用王鹤通向通用机器人：合成数据驱动的具身多模态大模型