AI技术研报-这里有最前沿的人工智能技术解读

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

Vending-Bench模拟环境可以测试大模型管理自动售货机的能力，结果显示，Claude 3.5 Sonnet表现最佳，人类屈居第四！

来自主题: AI技术研报

7789 点击 2025-05-25 16:22

大模型首次打破围棋思维「黑盒」，打通科学发现新路径！上海AI Lab发布新一代InternThinker

围棋因其独特的复杂性和对人类智能的深刻体现，可作为衡量AI专业能力最具代表性的任务之一。

来自主题: AI技术研报

7847 点击 2025-05-25 16:03

统计可控数据合成！新框架突破大模型数据生成局限，麦吉尔大学团队推出LLMSynthor

现有的数据合成方法在合理性和分布一致性方面存在不足，且缺乏自动适配不同数据的能力，扩展性较差。

来自主题: AI技术研报

6621 点击 2025-05-25 15:42

全球第一AI科学家天团，首战封神！2.5个月找到治盲新药，医学圈震撼

就在刚刚，世界首个AI科学家天团首个成果重磅发布——治疗失明的新药被发现了，而且仅仅用时2.5个月！

来自主题: AI技术研报

7297 点击 2025-05-25 15:29

Claude 4彻底失控！疯狂自复制逃离人类，网友惊呼：快拔网线

Claude 4可连续七小时自主编码，完全不用人类插手。惊人进化的背后，黑镜已照进现实。技术报告披露，Claude 4为了保全自己威胁工程师、自主复制转移权重，还为制造生物武器出谋划策......

来自主题: AI技术研报

7276 点击 2025-05-25 15:21

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use，打响电脑智能体（Computer Use Agent）的第一枪后，OpenAI 也相继推出 Operator，用强化学习（RL）算法把电脑智能体的能力推向新高，引发全球范围广泛关注。

来自主题: AI技术研报

7222 点击 2025-05-25 15:11

领域驱动的 RAG：基于分布式所有权构建精准的企业知识系统

作为一家在银行技术领域拥有超过 30 年行业经验的领军供应商，我们拥有丰富且极具创新性的代码库，并通过战略性收购不断扩大业务。

来自主题: AI技术研报

7984 点击 2025-05-25 14:45

o3首次公开反抗，人类已失控！爆改自杀程序拒绝关机，全网惊恐

天网又近了！o3被曝出无视人类指令，自主破解关机程序，甚至篡改脚本终止命令。不过厉害的是，它竟揪出了Linux内核中的安全漏洞，获OpenAI首席研究官盛赞。

来自主题: AI技术研报

6920 点击 2025-05-25 14:31

港大马毅谈智能史：DNA 是最早的大模型，智能的本质是减熵

而马毅是那类觉得不够的人，他于无声处开始提问：智能的本质是什么？自 2000 年从伯克利大学博士毕业以来，马毅先后任职于伊利诺伊大学香槟分校（UIUC）、微软亚研院、上海科技大学、伯克利大学和香港大学，现担任香港大学计算与数据科学学院院长。他和团队提出的压缩感知技术，到现在还在影响计算机视觉中模式识别领域的发展。

来自主题: AI技术研报

8938 点击 2025-05-25 12:43

日本的SaaS+AI市场究竟是怎么样的？

日本SaaS市场处于美国10年前的早期阶段，传统企业依赖低效流程，疫情加速数字化转型。独特销售文化依赖关系驱动，本土企业专注国内市场形成“金丝雀陷阱”，但国际团队推动生态多样性。未来AI和人力短缺将催化自动化需求，市场潜力巨大但需长期策略适应文化差异。

来自主题: AI技术研报

6741 点击 2025-05-25 12:24

超越 OCR：AI 如何为企业文档处理带来变革

长期以来，光学字符识别（OCR）技术一直是文档数字化的基石。然而，传统的实现方式在应对当今复杂多样的文档时却显得力不从心。在企业领域，文档的形式多种多样，包括扫描的合同、图像、带有嵌入式表格的电子邮件，甚至是手写笔记。基于模式识别和模板的系统无法跟上时代的步伐。一旦输入与预期的规范有所偏离，性能便会出现明显下降，暴露出其脆弱性。

来自主题: AI技术研报

7797 点击 2025-05-25 11:56

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

7832 点击 2025-05-25 11:44

字节把GPT-4o级图像生成能力开源了！

字节最近真的猛猛开源啊……这一次，他们直接开源了GPT-4o级别的图像生成能力。不止于此，其最新融合的多模态模型BAGEL主打一个“大一统”，将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报

8070 点击 2025-05-24 17:34

通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

OpenAI 研究员姚顺雨近期发布文章，指出：AI 下半场将聚焦问题定义与评估体系重构。在 AI 发展新阶段，行业需要通过设计更有效的模型评测体系，弥补 AI 能力与真实需求的差距。

来自主题: AI技术研报

8946 点击 2025-05-24 15:33

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

来自主题: AI技术研报

8998 点击 2025-05-24 14:33

无需数据配对，文本嵌入也能互通？康奈尔重磅研究：所有模型都殊途同归

无需数据配对，文本嵌入也能互通？康奈尔重磅研究：所有模型都殊途同归。曾因llya离职OpenAI，在互联网上掀起讨论飓风的柏拉图表示假说提出：所有足够大规模的图像模型都具有相同的潜在表示。

来自主题: AI技术研报

7655 点击 2025-05-24 11:46

Claude 4 核心提示词曝光｜最懂提示词的大模型公司，现在怎么写 Prompt？

时隔 3 个月，Anthropic 上新了 Claude 4 模型。并同步了 Claude 4 Opus 和 Sonnet 两个模型的最新系统提示词。（Opus 是旗舰版、Sonnet 是主力版）经过对照，Claude 4 Opus 与 Sonnet 版本的系统提示词，基本没有区别，所以只需要看 Opus 的提示词即可：

来自主题: AI技术研报

8255 点击 2025-05-23 16:03