AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。 然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视

来自主题: AI技术研报
6474 点击    2025-09-26 13:30
深度|“长眼睛”的奇多多AI学伴,凭什么能爆卖10000台?

深度|“长眼睛”的奇多多AI学伴,凭什么能爆卖10000台?

深度|“长眼睛”的奇多多AI学伴,凭什么能爆卖10000台?

奇多多AI学伴机是由无界方舟发布的国内首款基于「端到端实时多模态互动模型」的AI互动机器人,于本月2025外滩大会首次亮相。京东预售仅上线一周,销量便突破了10000台,在看似红海的儿童早教市场掀起波澜。在功能体验方面,它带来了三大突破:能“看”世界的眼睛、堪比真人的低延迟反馈速度、能“成长”的个性化陪伴感。

来自主题: AI资讯
6991 点击    2025-09-25 11:05
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5的技术报告正式发布!报告提出统一的3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。

来自主题: AI技术研报
7482 点击    2025-09-24 10:52
百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算

百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算

百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算

今天,百度智能云千帆正式推出全新视觉理解模型——Qianfan-VL,并全面开源!该系列包含3B、8B和70B三个尺寸版本,是面向企业级多模态应用场景,进行了深度优化的视觉理解大模型。

来自主题: AI资讯
7220 点击    2025-09-23 10:09
全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

近日,明略科技推出的基于多模态基础模型的网页 GUI 智能体 Mano,凭借其强大的性能,在行业内公认的两大挑战基准 ——Mind2Web 和 OSWorld 上同时刷新纪录,取得当前最佳成绩(SOTA)。

来自主题: AI技术研报
8628 点击    2025-09-21 19:20
理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA

理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA

理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA

谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong Wang, Meta GenAl Research Scientist、

来自主题: AI技术研报
5663 点击    2025-09-21 10:42
让 llama.cpp 支持多模态向量模型

让 llama.cpp 支持多模态向量模型

让 llama.cpp 支持多模态向量模型

几周前,我们发布了 jina-embeddings-v4 模型的 GGUF 版本,大幅降低了显存占用,提升了运行效率。不过,受限于 llama.cpp 上游版本的运行时,当时的 GGUF 模型只能当作文本向量模型使用而无法支持多模态向量的输出。

来自主题: AI技术研报
7947 点击    2025-09-20 09:42
多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而,如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近,随着 SWE-bench 团队发布最新的多模态 Issue 修复

来自主题: AI技术研报
6817 点击    2025-09-16 10:01
OpenVision 2:大道至简的生成式预训练视觉编码器

OpenVision 2:大道至简的生成式预训练视觉编码器

OpenVision 2:大道至简的生成式预训练视觉编码器

本文来自加州大学圣克鲁兹分校(UCSC)、苹果公司(Apple)与加州大学伯克利分校(UCB)的合作研究。第一作者刘彦青,本科毕业于浙江大学,现为UCSC博士生,研究方向包括多模态理解、视觉-语言预训

来自主题: AI技术研报
5414 点击    2025-09-16 09:37
刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用

刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用

刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用

工具越多,效率越低?在信息洪流里,我们被无尽的切换与复制粘贴拖住了脚。Fellou让每个人都重获跨领域创造力,做自己的数字达芬奇:交互、任务、记忆三大连续体无缝衔接,Deep Search与Visual Report免费开放,跨应用自动执行、多模态创作与动态工作流一站打通。

来自主题: AI资讯
9785 点击    2025-09-10 13:01