AI资讯新闻榜单内容搜索-多模态

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

能看懂视频并进行跨模态推理的大模型Keye-VL 1.5，快手开源了。

来自主题: AI技术研报

9017 点击 2025-09-06 12:44

多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！

近年来，生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而，在现实世界应用中，动态环境下的数据分布和任务需求不断变化，大模型如何在此背景下实现持续学习成为了重要挑战

来自主题: AI技术研报

10014 点击 2025-09-06 11:50

DeepSeek、GPT-5都在尝试的快慢思考切换，有了更智能版本，还是多模态

当前，业界顶尖的大模型正竞相挑战“过度思考”的难题，即无论问题简单与否，它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换，还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。

来自主题: AI技术研报

8293 点击 2025-09-02 12:27

苹果最新模型，5年前的iPhone能跑

智东西9月1日消息，苹果又公布了大模型研发新进展！ 8月28日，苹果在arXiv发布新论文，介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制，同天在GitHub、Hugging Face上开源了模型的预训练权重和数据生成代码。

来自主题: AI技术研报

8656 点击 2025-09-02 11:04

更懂国内APP的开源智能体！感知/定位/推理/中文能力全面提升，还能自己学会操作

最新开源多模态智能体，能自动操作手机、电脑、浏览器的那种！开源评测榜单和中文场景交互成绩全面提升。

来自主题: AI技术研报

10231 点击 2025-09-01 10:55

元石科技正式发布问小白5，性能直追GPT-5

本月初，AI 圈翘首以盼的 GPT-5 终于问世，在数学、实际编程、多模态理解、推理等多个领域实现了新的 SOTA。今日，国产 AI 厂商元石科技重磅推出「All in One」旗舰模型 —— 问小白 5，成为其迄今为止最智能、最快捷、最实用的 AI 系统。尤其值得强调的是：问小白 5 的各项基准测试榜单成绩最接近 GPT-5，这使其成为当前国产大模型中最具代表性的对标者。

来自主题: AI资讯

8429 点击 2025-08-29 14:14

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

近期，多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理，数学推理也得到了一定提升。

来自主题: AI技术研报

10267 点击 2025-08-28 12:20

刚刚，大模型装上「鹰眼」！首创高刷视频理解，谷歌Gemini 2.5完败

刚刚，面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世：8B参数，越级反超72B巨无霸，图片、视频、OCR同级全线SOTA！不仅跑得快、看得清，还能真正落地到车机、机器人等。这一次，它不只是升级，而是刷新了端侧AI的高度。

来自主题: AI技术研报

10541 点击 2025-08-27 13:05

搞不定有表格数据和多模态的Prompt？试下微软最新的提示词编排标记语言POML

最近来自微软的研究者们带来了一个全新的思路，他们开源发布了POML（Prompt Orchestration Markup Language），它的的解决方案它的核心思想非常直接：为什么我们不能像开发网页一样，用工程化的思维来构建和管理我们的Prompt呢？这个编排语言很类似IBM的PDL

来自主题: AI技术研报

9349 点击 2025-08-27 11:11

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

今天，我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，看得准、看得快，看得长！高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA，且性能超过 Qwen2.5-VL 72B，堪称最强端侧多模态模型。

来自主题: AI资讯

11720 点击 2025-08-26 23:30