AI资讯新闻榜单内容搜索-多模态

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

EMOVA（EMotionally Omni-present Voice Assistant），一个能够同时处理图像、文本和语音模态，能看、能听、会说的多模态全能助手，并通过情感控制，拥有更加人性化的交流能力。

来自主题: AI资讯

5394 点击 2024-10-02 11:17

就在刚刚，MIT系初创公司Liquid AI团队官宣：推出首批多模态非Transformer模型——液体基础模型LFM。

来自主题: AI资讯

6931 点击 2024-10-01 14:52

视觉数据的种类极其多样，囊括像素级别的图标到数小时的视频。现有的多模态大语言模型（MLLM）通常将视觉输入进行分辨率的标准化或进行动态切分等操作，以便视觉编码器处理。然而，这些方法对多模态理解并不理想，在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯

4917 点击 2024-09-29 14:44

随着人工智能（AI）技术的飞速发展，特别是在生成式AI领域的突破，我们见证了许多新兴技术的诞生，它们正逐步改变着我们的生活和工作方式。

来自主题: AI资讯

9449 点击 2024-09-28 16:52

在多模态领域，开源模型也超闭源了！

来自主题: AI资讯

7771 点击 2024-09-27 11:51

具身智能领域的“癫”，已经进入next level了！

来自主题: AI资讯

12023 点击 2024-09-27 11:03

Meta首个理解图文的多模态Llama 3.2来了！这次，除了11B和90B两个基础版本，Meta还推出了仅有1B和3B轻量级版本，适配了Arm处理器，手机、AR眼镜边缘设备皆可用。

来自主题: AI资讯

7076 点击 2024-09-26 15:18

NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。

来自主题: AI技术研报

9889 点击 2024-09-24 12:27

视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务，用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近，多模态里程计越来越受到关注，因为它可以利用不同模态的互补信息，并对非对称传感器退化具有很强的鲁棒性。

来自主题: AI技术研报

11276 点击 2024-09-22 14:00

扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报

9619 点击 2024-09-21 18:19