AI资讯新闻榜单内容搜索-多模态

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报

9097 点击 2025-05-30 17:30

LLM省钱大测评！48块GH200，首个百亿级参数量实证

LLM省钱大测评！48块GH200，首个百亿级参数量实证

LLM省钱大测评！48块GH200，首个百亿级参数量实证

EfficientLLM项目聚焦LLM效率，提出三轴分类法和六大指标，实验包揽全架构、多模态、微调技术，可为研究人员提供效率与性能平衡的参考。

来自主题: AI技术研报

9651 点击 2025-05-29 17:16

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率低至55%

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率低至55%

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率低至55%

当前顶尖AI模型是否真能“看懂”物理图像？

来自主题: AI资讯

7166 点击 2025-05-29 13:58

Google CEO：AI 比互联网还大，未来将是多终端并行

Google CEO：AI 比互联网还大，未来将是多终端并行

Google CEO：AI 比互联网还大，未来将是多终端并行

Google I/O 2025 结束后，Google CEO Sundar Pichai 接受了《The Verge》主编专访，这也是双方连续第三年于 I/O 后展开对谈，而今年的背景更为特殊：Gemini 模型全面更新、多模态生成工具 Veo3 登场、AI 功能深度融入 Android 与 XR 平台，Google 展现出前所未有的产品化信心。

来自主题: AI资讯

10153 点击 2025-05-29 09:53

独家｜优理奇机器人完成数亿元天使轮及天使+轮融资，软硬全栈团队加速具身智能普惠点到来

独家｜优理奇机器人完成数亿元天使轮及天使+轮融资，软硬全栈团队加速具身智能普惠点到来

独家｜优理奇机器人完成数亿元天使轮及天使+轮融资，软硬全栈团队加速具身智能普惠点到来

近期，具身智能公司「优理奇机器人 UniX AI」完成数亿元天使轮及天使+轮融资，中关村前沿基金，赛纳资本及长安私人资本参与本轮融资。本轮融资将用于加速研发多模态具身智能大模型与通用机器人本体的同步演进，以及面向多个泛商业服务和C端场景落地与交付。

来自主题: AI资讯

9447 点击 2025-05-28 15:22

多模态模型具备“物理推理能力”了吗？新基准揭示：表现最好的GPT-o4 mini也远不及人类！

多模态模型具备“物理推理能力”了吗？新基准揭示：表现最好的GPT-o4 mini也远不及人类！

多模态模型具备“物理推理能力”了吗？新基准揭示：表现最好的GPT-o4 mini也远不及人类！

表现最好的GPT-o4 mini，物理推理能力也远不及人类！

来自主题: AI技术研报

10421 点击 2025-05-28 09:47

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

在大型推理模型（例如 OpenAI-o3）中，一个关键的发展趋势是让模型具备原生的智能体能力。具体来说，就是让模型能够调用外部工具（如网页浏览器）进行搜索，或编写/执行代码以操控图像，从而实现「图像中的思考」。

来自主题: AI技术研报

11401 点击 2025-05-27 16:53

这样更公平：用jina-reranker-m0为多模态文档打分重排

这样更公平：用jina-reranker-m0为多模态文档打分重排

这样更公平：用jina-reranker-m0为多模态文档打分重排

当你在搜索“中国队在多哈乒乓球锦标赛的成绩”时，一篇新闻报道的文本部分和你的查询的相关性是 0.7，配图的相关性 0.5；另一篇则是文本相关性为 0.6，图片也是 0.6。那么，哪一篇报道才是你真正想要的呢？

来自主题: AI技术研报

9463 点击 2025-05-27 09:57

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。

来自主题: AI技术研报

9302 点击 2025-05-26 09:59

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

10014 点击 2025-05-25 11:44

上一页当前第47页,共108页下一页