AI资讯新闻榜单内容搜索-研究

Transformer原作打脸DeepSeek观点？一句Wait就能引发反思，RL都不用

Transformer作者Ashish Vaswani团队重磅LLM研究！简单指令：「Wait，」就能有效激发LLM显式反思，表现堪比直接告知模型存在错误。

来自主题: AI技术研报

8188 点击 2025-04-23 10:47

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

你是否正在投入大量资源开发基于MCP的Agent，却从未质疑过一个基本假设：MCP真的比传统函数调用更有优势吗？ 2025年4月的这项开创性研究直接挑战了这一广泛接受的观点，其执行摘要明确指出："使用MCPs并不显示出比函数调用有明显改进"。

来自主题: AI技术研报

7100 点击 2025-04-23 09:45

142页长文揭秘DeepSeek-R1「思维大脑」！开启全新「思维链学」研究

DeepSeek-R1是近年来推理模型领域的一颗新星，它不仅突破了传统LLM的局限，还开启了全新的研究方向「思维链学」（Thoughtology）。这份长达142页的报告深入剖析了DeepSeek-R1的推理过程，揭示了其推理链的独特结构与优势，为未来推理模型的优化提供了重要启示。

来自主题: AI技术研报

9531 点击 2025-04-22 18:59

连Claude 3.5都败下阵来，大语言模型能否定位软件服务的故障根因？

论文的第一作者是香港中文大学（深圳）数据科学学院三年级博士生徐俊杰龙，指导老师为香港中文大学（深圳）数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。

来自主题: AI技术研报

7836 点击 2025-04-22 17:58

Claude竟藏着3307种「人格」？深扒70万次对话，这个AI会看人下菜碟

AI会无脑附和吗？Anthropic研究发现，Claude能根据场景切换人格：谈恋爱时化身情感导师，聊历史时秒变严谨学者。一些对话中，它强烈支持用户价值观，但在3%的情况下，它会果断抵制。

来自主题: AI技术研报

7991 点击 2025-04-22 16:24

行业必读丨OpenAI 最新报告：构建 Agents 最佳实践

OpenAI 最近发布了三份针对企业客户的研究报告，本次挑选了其中的「A Practical guide to building AI agents」一篇进行了翻译。除非已经是 Agent 资深开发大佬，否则强烈建议 AI 行业的大家都来读一下这篇报告。

来自主题: AI技术研报

10977 点击 2025-04-22 09:30

速递｜不站队的AI裁判要赚钱了？Chatbot Arena转型公司化运营且计划融资

作为学术研究项目，原加州大学伯克利分校的Chatbot Arena，其网站已成为访客试用新人工智能模型的热门平台，现正转型为独立公司。

来自主题: AI资讯

7965 点击 2025-04-21 16:37

o3被曝「无视」前成果？华人博士生实名指控，谢赛宁等大牛激烈争辩

o3和o4-mini视觉推理突破，竟未引用他人成果？一名华盛顿大学博士生发出质疑，OpenAI研究人员对此回应：不存在。

来自主题: AI技术研报

8240 点击 2025-04-21 16:16

速递｜全球首例！阿联酋用AI立法，效率背后藏技术跃进颠覆风险

阿拉伯联合酋长国计划利用人工智能，协助起草新法规及审查修订现行法律，这是这个海湾国家在AI上已投入数十亿美元基础上，采取的最激进尝试。人工智能研究人员表示，该国官方媒体所称的“人工智能驱动监管”计划比其他任何地方所见都更为超前，同时指出细节尚不充分。其他政府正尝试运用 AI 提升效率，从法案摘要到优化公共服务，但尚未通过分析政府与法律数据来主动提议修改现行法律。

来自主题: AI资讯

9114 点击 2025-04-21 14:40

采样越多越聪明？隐式扩展颠覆认知，采样搜索如何挑出完美解

采样多就一定准吗？研究人员用实验告诉你：是的，而且超乎想象！基于采样的搜索不仅能在并行处理中大展身手，还通过隐式扩展让验证更精准。

来自主题: AI资讯

6782 点击 2025-04-21 14:22