AI技术研报-这里有最前沿的人工智能技术解读

o3不听指令拒绝关机，7次破坏关机脚本！AI正在学会「自我保护」机制

AI居然不听指令，阻止人类把自己给关机了？？？

来自主题: AI技术研报

9009 点击 2025-05-27 13:48

3步轻松微调Qwen3，本地电脑就能搞，这个方案可以封神了！【喂饭级教程】

大家好，我是袋鼠帝今天给大家带来的是一个带WebUI，无需代码的超简单的本地大模型微调方案（界面操作），实测微调之后的效果也是非常不错。

来自主题: AI技术研报

6936 点击 2025-05-27 13:38

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

近年来，思维链在大模型训练和推理中愈发重要。近日，西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤，然后利用基于结果的强化学习去优化整个生成轨迹，最大化模型最终答案的正确率。

来自主题: AI技术研报

5790 点击 2025-05-27 13:21

99%的人都理解错了，AI Agent ≠ Agentic AI，康奈尔大学发33页论文澄清关键区别。

TL;DR：如果您有一个AI产品，用户问您这是AI Agent还是Agentic AI？如果您回答不出来，或者认为这两个概念是一回事，那您可能需要重新审视自己的技术认知了。不过没关系，因为99%的人都不知道，现在您只需要看完这篇文章就可以了。

来自主题: AI技术研报

5865 点击 2025-05-27 12:40

TPU vs GPU: 2025年会有何不同？

AI无处不在——从聊天机器人、推荐引擎到语音助手和ChatGPT或谷歌Gemini等工具。但在所有这些智能技术的背后，有一样东西经常被忽视：使这一切成为可能的硬件。

来自主题: AI技术研报

6711 点击 2025-05-27 11:21

这样更公平：用jina-reranker-m0为多模态文档打分重排

当你在搜索“中国队在多哈乒乓球锦标赛的成绩”时，一篇新闻报道的文本部分和你的查询的相关性是 0.7，配图的相关性 0.5；另一篇则是文本相关性为 0.6，图片也是 0.6。那么，哪一篇报道才是你真正想要的呢？

来自主题: AI技术研报

6858 点击 2025-05-27 09:57

红杉中国发布 xbench，首个由投资机构打造的 AI 基准测试

随着基础模型的快速发展和 AI Agent 进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映 AI 的客观能力正变得越来越困难。

来自主题: AI技术研报

6893 点击 2025-05-27 09:50

说句话就能飞！北航发布语言交互的无人机控制模型

一句话就能让无人机起飞？

来自主题: AI技术研报

7805 点击 2025-05-26 17:10

喝点VC｜a16z前沿洞察：AI 浪潮下的九大开发者模式

与其说有几个框架主导了整个生态系统，不如说我们将看到更多的可组合、栈特定的生成方式，其中工具和架构可以动态组合。

来自主题: AI技术研报

5801 点击 2025-05-26 17:05

华为中科大联创大模型低比特量化算法，1‰数据实现昇腾无损压缩7倍

大模型巨无霸体量，让端侧部署望而却步？华为联手中科大提出CBQ新方案，仅用0.1%的训练数据实现7倍压缩率，保留99%精度。

来自主题: AI技术研报

7925 点击 2025-05-26 15:21

灵宝 CASBOT 与 CASIA 共同提出“增强物理人机协作中的人类意图估计和人机角色分配”方法

近日，机器人与自动化领域全球顶会 ICRA 2025 在美国亚特兰大开幕。

来自主题: AI技术研报

7792 点击 2025-05-26 15:02

ACL 2025 高分接收 | 高感情语音技术：逻辑智能小语种TTS破局之道

语音合成（TTS）技术近十年来突飞猛进，从早期的拼接式合成和统计参数模型，发展到如今的深度神经网络与扩散、GAN 等先进架构，实现了接近真人的自然度与情感表达，广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。

来自主题: AI技术研报

5826 点击 2025-05-26 14:56

她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽

2023年，业界还在卷Scaling Law，不断突破参数规模和数据规模时，微软亚洲研究院张丽团队就选择了另一条路径。

来自主题: AI技术研报

5770 点击 2025-05-26 14:35

人类打辩论不如GPT-4？！Nature子刊：900人实战演练，AI胜率64.4%，还更会说服人

只需知道6项个人信息，GPT-4就有可能在辩论中打败你？！

来自主题: AI技术研报

8831 点击 2025-05-26 11:13

前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨

AI是否真正在「思考」乃至产生意识，正成为科学和哲学交汇的核心议题。前OpenAI负责人翁荔认为，增加模型的「思考时间」有助突破复杂推理瓶颈；哈佛等机构则指出思维链可能导致「降智」；而生物学家Mallavarapu断言数字计算机永不可能拥有意识。

来自主题: AI技术研报

7710 点击 2025-05-26 10:43

Qwen3-0.6B 能击败 Bert 吗？

新增 Qwen3-0.6B 在 Ag_news 数据集 Zero-Shot 的效果。新增 Qwen3-0.6B 线性层分类方法的效果。

来自主题: AI技术研报

7790 点击 2025-05-26 10:14

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。

来自主题: AI技术研报

6877 点击 2025-05-26 09:59

没有银弹，没有免费午餐！KtR用算法思维重构Multi-Agent设计

1986年，图灵奖得主Fred Brooks在软件工程领域提出了著名的"没有银弹"理论：没有任何一种技术或方法能够独自带来软件工程生产力的数量级提升。近四十年后，这个深刻洞察在AI领域再次得到验证——你是否也曾经历过这样的挫折：

来自主题: AI技术研报

4660 点击 2025-05-26 09:50

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

Vending-Bench模拟环境可以测试大模型管理自动售货机的能力，结果显示，Claude 3.5 Sonnet表现最佳，人类屈居第四！

来自主题: AI技术研报

7635 点击 2025-05-25 16:22

大模型首次打破围棋思维「黑盒」，打通科学发现新路径！上海AI Lab发布新一代InternThinker

围棋因其独特的复杂性和对人类智能的深刻体现，可作为衡量AI专业能力最具代表性的任务之一。

来自主题: AI技术研报

7688 点击 2025-05-25 16:03

统计可控数据合成！新框架突破大模型数据生成局限，麦吉尔大学团队推出LLMSynthor

现有的数据合成方法在合理性和分布一致性方面存在不足，且缺乏自动适配不同数据的能力，扩展性较差。

来自主题: AI技术研报

6467 点击 2025-05-25 15:42

全球第一AI科学家天团，首战封神！2.5个月找到治盲新药，医学圈震撼

就在刚刚，世界首个AI科学家天团首个成果重磅发布——治疗失明的新药被发现了，而且仅仅用时2.5个月！

来自主题: AI技术研报

7142 点击 2025-05-25 15:29

Claude 4彻底失控！疯狂自复制逃离人类，网友惊呼：快拔网线

Claude 4可连续七小时自主编码，完全不用人类插手。惊人进化的背后，黑镜已照进现实。技术报告披露，Claude 4为了保全自己威胁工程师、自主复制转移权重，还为制造生物武器出谋划策......

来自主题: AI技术研报

7118 点击 2025-05-25 15:21

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use，打响电脑智能体（Computer Use Agent）的第一枪后，OpenAI 也相继推出 Operator，用强化学习（RL）算法把电脑智能体的能力推向新高，引发全球范围广泛关注。

来自主题: AI技术研报

7089 点击 2025-05-25 15:11

领域驱动的 RAG：基于分布式所有权构建精准的企业知识系统

作为一家在银行技术领域拥有超过 30 年行业经验的领军供应商，我们拥有丰富且极具创新性的代码库，并通过战略性收购不断扩大业务。

来自主题: AI技术研报

7828 点击 2025-05-25 14:45

o3首次公开反抗，人类已失控！爆改自杀程序拒绝关机，全网惊恐

天网又近了！o3被曝出无视人类指令，自主破解关机程序，甚至篡改脚本终止命令。不过厉害的是，它竟揪出了Linux内核中的安全漏洞，获OpenAI首席研究官盛赞。

来自主题: AI技术研报

6740 点击 2025-05-25 14:31

港大马毅谈智能史：DNA 是最早的大模型，智能的本质是减熵

而马毅是那类觉得不够的人，他于无声处开始提问：智能的本质是什么？自 2000 年从伯克利大学博士毕业以来，马毅先后任职于伊利诺伊大学香槟分校（UIUC）、微软亚研院、上海科技大学、伯克利大学和香港大学，现担任香港大学计算与数据科学学院院长。他和团队提出的压缩感知技术，到现在还在影响计算机视觉中模式识别领域的发展。

来自主题: AI技术研报

8817 点击 2025-05-25 12:43

日本的SaaS+AI市场究竟是怎么样的？

日本SaaS市场处于美国10年前的早期阶段，传统企业依赖低效流程，疫情加速数字化转型。独特销售文化依赖关系驱动，本土企业专注国内市场形成“金丝雀陷阱”，但国际团队推动生态多样性。未来AI和人力短缺将催化自动化需求，市场潜力巨大但需长期策略适应文化差异。

来自主题: AI技术研报

6598 点击 2025-05-25 12:24

超越 OCR：AI 如何为企业文档处理带来变革

长期以来，光学字符识别（OCR）技术一直是文档数字化的基石。然而，传统的实现方式在应对当今复杂多样的文档时却显得力不从心。在企业领域，文档的形式多种多样，包括扫描的合同、图像、带有嵌入式表格的电子邮件，甚至是手写笔记。基于模式识别和模板的系统无法跟上时代的步伐。一旦输入与预期的规范有所偏离，性能便会出现明显下降，暴露出其脆弱性。

来自主题: AI技术研报

7659 点击 2025-05-25 11:56

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

7673 点击 2025-05-25 11:44

AI技术研报-这里有最前沿的人工智能技术解读

o3不听指令拒绝关机，7次破坏关机脚本！AI正在学会「自我保护」机制

3步轻松微调Qwen3，本地电脑就能搞，这个方案可以封神了！【喂饭级教程】

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

99%的人都理解错了，AI Agent ≠ Agentic AI，康奈尔大学发33页论文澄清关键区别。

TPU vs GPU: 2025年会有何不同？

这样更公平：用jina-reranker-m0为多模态文档打分重排

红杉中国发布 xbench，首个由投资机构打造的 AI 基准测试

说句话就能飞！北航发布语言交互的无人机控制模型

喝点VC｜a16z前沿洞察：AI 浪潮下的九大开发者模式

华为中科大联创大模型低比特量化算法，1‰数据实现昇腾无损压缩7倍

灵宝 CASBOT 与 CASIA 共同提出“增强物理人机协作中的人类意图估计和人机角色分配”方法

ACL 2025 高分接收 | 高感情语音技术：逻辑智能小语种TTS破局之道

她如何把“系统2”带给了大模型 ｜对话微软亚洲研究院张丽

人类打辩论不如GPT-4？！Nature子刊：900人实战演练，AI胜率64.4%，还更会说服人

前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨

Qwen3-0.6B 能击败 Bert 吗？

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

没有银弹，没有免费午餐！KtR用算法思维重构Multi-Agent设计

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

大模型首次打破围棋思维「黑盒」，打通科学发现新路径！上海AI Lab发布新一代InternThinker

统计可控数据合成！新框架突破大模型数据生成局限，麦吉尔大学团队推出LLMSynthor

全球第一AI科学家天团，首战封神！2.5个月找到治盲新药，医学圈震撼

Claude 4彻底失控！疯狂自复制逃离人类，网友惊呼：快拔网线

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

领域驱动的 RAG：基于分布式所有权构建精准的企业知识系统

o3首次公开反抗，人类已失控！爆改自杀程序拒绝关机，全网惊恐

港大马毅谈智能史：DNA 是最早的大模型，智能的本质是减熵

日本的SaaS+AI市场究竟是怎么样的？

超越 OCR：AI 如何为企业文档处理带来变革

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽