AI技术研报-这里有最前沿的人工智能技术解读

超越 OCR：AI 如何为企业文档处理带来变革

长期以来，光学字符识别（OCR）技术一直是文档数字化的基石。然而，传统的实现方式在应对当今复杂多样的文档时却显得力不从心。在企业领域，文档的形式多种多样，包括扫描的合同、图像、带有嵌入式表格的电子邮件，甚至是手写笔记。基于模式识别和模板的系统无法跟上时代的步伐。一旦输入与预期的规范有所偏离，性能便会出现明显下降，暴露出其脆弱性。

来自主题: AI技术研报

7761 点击 2025-05-25 11:56

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

7789 点击 2025-05-25 11:44

字节把GPT-4o级图像生成能力开源了！

字节最近真的猛猛开源啊……这一次，他们直接开源了GPT-4o级别的图像生成能力。不止于此，其最新融合的多模态模型BAGEL主打一个“大一统”，将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报

8035 点击 2025-05-24 17:34

通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

OpenAI 研究员姚顺雨近期发布文章，指出：AI 下半场将聚焦问题定义与评估体系重构。在 AI 发展新阶段，行业需要通过设计更有效的模型评测体系，弥补 AI 能力与真实需求的差距。

来自主题: AI技术研报

8910 点击 2025-05-24 15:33

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

来自主题: AI技术研报

8951 点击 2025-05-24 14:33

无需数据配对，文本嵌入也能互通？康奈尔重磅研究：所有模型都殊途同归

无需数据配对，文本嵌入也能互通？康奈尔重磅研究：所有模型都殊途同归。曾因llya离职OpenAI，在互联网上掀起讨论飓风的柏拉图表示假说提出：所有足够大规模的图像模型都具有相同的潜在表示。

来自主题: AI技术研报

7626 点击 2025-05-24 11:46

Claude 4 核心提示词曝光｜最懂提示词的大模型公司，现在怎么写 Prompt？

时隔 3 个月，Anthropic 上新了 Claude 4 模型。并同步了 Claude 4 Opus 和 Sonnet 两个模型的最新系统提示词。（Opus 是旗舰版、Sonnet 是主力版）经过对照，Claude 4 Opus 与 Sonnet 版本的系统提示词，基本没有区别，所以只需要看 Opus 的提示词即可：

来自主题: AI技术研报

8150 点击 2025-05-23 16:03

GPT-4o舔出事了！赛博舔狗背后，暗藏6大AI套路

上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示LLM不止会「跪舔」，还有另外5种「套路」。

来自主题: AI技术研报

6451 点击 2025-05-23 15:46

巧妙！一个传统技术让国产视觉基础模型直接上大分

咱就是说啊，视觉基础模型这块儿，国产AI真就是上了个大分——Glint-MVT，来自格灵深瞳的最新成果。Glint-MVT，来自格灵深瞳的最新成果先来看下成绩——线性探测（LinearProbing）：

来自主题: AI技术研报

7323 点击 2025-05-23 15:18

AI开源狂飙，OpenAI们慌了！GenAI大洗牌，2025趋势深度解读

2025年，ChatGPT依旧领跑，但DeepSeek、Qwen等开源劲敌正加速追赶。从「推理革命」爆发到 DeepSeek开源，一场围绕算力、架构与生态的战争已悄然打响，开源势力正以星星之火之势挑战闭源巨头。

来自主题: AI技术研报

7350 点击 2025-05-23 15:03

多模态长文本理解测评首发：46款模型无一攻克128K难关

来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench，旨在全面评估多模态模型的长文本理解能力。

来自主题: AI技术研报

7037 点击 2025-05-23 14:52

用Cherry替代Manus，AI调用多个MCP在本地处理Excel生成可视化报告文件

Manus在agent领域可谓「炙手可热」，但受限于网络以及少得可怜的积分，很多人还是无法用得上。AI Agent的处理逻辑：无非就是用AI根据用户需求，规划好要做的事后，不断的调用不同的工具来实现。

来自主题: AI技术研报

7239 点击 2025-05-23 14:20

CVPR 25 |全面提升视觉感知鲁棒性，生成模型快速赋能三维检测

来自香港中文大学（深圳）等单位的学者们提出了一种名为 DriveGEN 的无训练自动驾驶图像可控生成方法。该方法无需额外训练生成模型，即可实现训练图像数据的可控扩充，从而以较低的计算资源成本提升三维检测模型的鲁棒性。

来自主题: AI技术研报

6960 点击 2025-05-23 14:09

AI十周找到不治之症潜在新疗法，核心流程完全自主驱动

多智能体系统成功锁定

来自主题: AI技术研报

8127 点击 2025-05-23 12:45

RSS 2025｜物理驱动的世界模型PIN-WM：直接从视觉观测估计物理属性，可用于操作策略学习

在机器人操作中，物体运动往往涉及摩擦、碰撞等复杂物理机制。准确的物理属性描述可以实现对物体运动结果更准确的预测，并提升机器人在操作技能学习中的表现。

来自主题: AI技术研报

6981 点击 2025-05-23 12:09

自回归+扩散！Salesforce开源统一多模态模型BLIP3-o，图像理解与生成全拿下

OpenAI 的 GPT-4o 在图像理解、生成和编辑任务上展现了顶级性能。流行的架构猜想是：

来自主题: AI技术研报

8936 点击 2025-05-23 11:42

帮大模型提速80%，华为拿出昇腾推理杀手锏FlashComm，三招搞定通算瓶颈

在今年 2 月的 DeepSeek 开源周中，大模型推理过程中并行策略和通信效率的深度优化成为重点之一。在今年 2 月的 DeepSeek 开源周中，大模型推理过程中并行策略和通信效率的深度优化成为重点之一。

来自主题: AI技术研报

6401 点击 2025-05-23 10:18

比Gemini Diffusion更全能！首个多模态扩散大语言模型MMaDA发布，同时实现强推理与高可控性

普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA（Multimodal Large Diffusion Language Models），作为首个系统性探索扩散架构的多模态基础模型，MMaDA 通过三项核心技术突破，成功实现了文本推理、多模态理解与图像生成的统一建模。

来自主题: AI技术研报

7915 点击 2025-05-22 17:30

陶哲轩联手AI挑战经典ε-δ极限！加法秒杀、乘法翻车

数学大师陶哲轩的第三支Lean 4自动化数学证明视频来了！他携手GitHub Copilot挑战分析学经典的「ε-δ」极限问题：加法定理Copilot挥洒自如，减法开始卡壳，乘法更是全面失控。Copilot究竟是神助攻还是添乱？

来自主题: AI技术研报

6755 点击 2025-05-22 15:57

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

判断AI是否智能，评价维度如今已不仅限于刷榜成绩。

来自主题: AI技术研报

8144 点击 2025-05-22 15:25

智谱清言微服务架构转型实践——基于 CloudWeGo 的技术演进

随着业务规模的不断扩大和用户需求的快速增长，传统的单体架构在扩展性、灵活性和运维效率等方面逐渐暴露出瓶颈，微服务架构成为当下企业技术架构转型的主流选择。智谱清言作为国内领先的大模型应用之一，基于自主研发的 GLM 模型打造了全能 AI 助手，提供多平台支持和强大的智能体创建能力。

来自主题: AI技术研报

7877 点击 2025-05-22 14:57

Nature重磅：快5000倍，「首个大规模大气AI」击败全球最先进数值预报系统

可靠的地球系统预测对于推动人类进步和预防自然灾害至关重要。人工智能（AI）为提高该领域的预测精度和计算效率提供了巨大潜力，但在许多领域仍未得到充分开发。

来自主题: AI技术研报

6444 点击 2025-05-22 14:40

比Sora更疯狂！英伟达AI让机器人「做梦」修炼，无师自通直接上岗

当OpenAI、谷歌还在用Sora等AI模型「拍视频」，英伟达直接用视频生成模型让机器人「做梦」学习！新方法DreamGen不仅让机器人掌握从未见过的新动作，还能泛化至完全陌生的环境。利用新方法合成数据直接暴涨333倍。机器人终于「做梦成真」了！

来自主题: AI技术研报

6785 点击 2025-05-22 10:15

HALO，基于MCTS的层次化动态提示框架，让Agent总能找到最优路径 | 最新

HALO框架通过三大创新机制重塑多Agent(MAS)协作方式：层次化推理架构克服了认知过载问题，让智能体各司其职；动态角色实例化能针对不同任务匹配专业智能体；基于MCTS的搜索引擎自动探索最优推理路径。它能将模糊的用户查询转化为专业提示，分解复杂任务并动态调整执行计划。

来自主题: AI技术研报

4838 点击 2025-05-22 09:28

Dify、n8n、Coze、Fastgpt、Ragflow到底该怎么选？超详细指南～

大家好，我是袋鼠帝一直以来，分享了不少关于工作流平台、LLM应用平台的不少干货文章。主要包含：Dify、Coze、n8n、Fastgpt、Ragflow。大家好，我是袋鼠帝一直以来，分享了不少关于工作流平台、LLM应用平台的不少干货文章。主要包含：Dify、Coze、n8n、Fastgpt、Ragflow

来自主题: AI技术研报

8540 点击 2025-05-22 09:11