AI资讯新闻榜单内容搜索-视觉

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 视觉

刚刚，多模态推理模型QVQ全新开源

刚刚，多模态推理模型QVQ全新开源

刚刚，多模态推理模型QVQ全新开源

QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中，QVQ 取得了 70.3 的优异成绩，并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理，QVQ 在视觉推理任务中展现出增强的能力，尤其在需要复杂分析思维的领域表现出色。

来自主题: AI资讯

11671 点击 2024-12-25 08:47

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

在大语言模型和 AIGC 的热潮下，科研人员对构建「视觉对话智能体」（Visual Chat Agent）展现出极大兴趣。其中，可实时交互的人像生成技术（Audio-Driven Real-Time Interactive Head Generation）是实现链路中极为关键的一环。

来自主题: AI资讯

9067 点击 2024-12-24 15:44

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

李飞飞、谢赛宁团队又有重磅发现了：多模态LLM能够记住和回忆空间，甚至内部已经形成了局部世界模型，表现了空间意识！李飞飞兴奋表示，在2025年，空间智能的界限很可能会再次突破。

来自主题: AI技术研报

9544 点击 2024-12-23 16:22

李飞飞、谢赛宁等探索MLLM「视觉空间智能」，网友：2025有盼头了

李飞飞、谢赛宁等探索MLLM「视觉空间智能」，网友：2025有盼头了

李飞飞、谢赛宁等探索MLLM「视觉空间智能」，网友：2025有盼头了

我们生活在一个感官丰富的 3D 世界中，视觉信号围绕着我们，让我们能够感知、理解和与之互动。

来自主题: AI技术研报

8202 点击 2024-12-23 15:10

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

如今，多模态大模型（MLLM）已经在视觉理解领域取得了长足进步，其中视觉指令调整方法已被广泛应用。该方法是具有数据和计算效率方面的优势，其有效性表明大语言模型（LLM）拥有了大量固有的视觉知识，使得它们能够在指令调整过程中有效地学习和发展视觉理解。

来自主题: AI技术研报

8822 点击 2024-12-21 11:12

如何看待字节的AI战略：全方位布局、全面平推

如何看待字节的AI战略：全方位布局、全面平推

如何看待字节的AI战略：全方位布局、全面平推

字节前几天的发布会，上线了一堆新的模型：视觉理解、3D 生成，以及全线降价

来自主题: AI资讯

8257 点击 2024-12-21 11:04

AI能传递气味了！能定制个性化气味，谷歌前研究员新技术

AI能传递气味了！能定制个性化气味，谷歌前研究员新技术

AI能传递气味了！能定制个性化气味，谷歌前研究员新技术

继视觉和听觉之后，AI已经进化到拥有嗅觉了？？你没听错，这是来自Osmo公司的最新技术，它们刚刚首次实现了由AI生成的李子味道。而且生成味道的过程几乎是全自动的——除了放入水果和取出生成结果，全程都不需要人工干预。

来自主题: AI资讯

8787 点击 2024-12-20 15:06

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

2024年12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

来自主题: AI资讯

9388 点击 2024-12-20 09:43

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

最近，2D/3D 内容创作、世界模型（World Models）似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一，多视角图像生成是上述热点方向的技术基础，在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。

来自主题: AI技术研报

8965 点击 2024-12-18 14:31

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

Florence-VL 提出了使用生成式视觉编码器 Florence-2 作为多模态模型的视觉信息输入，克服了传统视觉编码器（如 CLIP）仅提供单一视觉表征而往往忽略图片中关键的局部信息。

来自主题: AI技术研报

8977 点击 2024-12-18 14:21

上一页当前第49页,共76页下一页