AI资讯新闻榜单内容搜索-训练

GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则

最新PRBench基准可以测试AI在金融和法律领域的表现。结果显示，即使是顶尖大模型在处理复杂任务时也表现不佳，尤其在涉及重大经济后果的任务中。PRBench通过模拟真实场景和多轮对话，揭示了AI在专业领域的不足，强调开发更可靠AI系统的重要性。

来自主题: AI技术研报

7717 点击 2025-11-22 11:33

无需训练、只优化解码策略，DTS框架让大模型推理准确率提升6%，推理长度缩短23%

专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破，但也带来了一个重要问题：越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作

来自主题: AI技术研报

7343 点击 2025-11-22 11:31

AI模型大战：Gemini 3 Pro、GPT-5.1-Codex-Max与Claude Sonnet 4.5如何选择？

前沿AI竞赛在2025年11月达到高潮。48小时内，谷歌推出Gemini 3 Pro宣称在主要推理基准测试中领先，而OpenAI立即用GPT-5.1-Codex-Max反击，这是一款专门训练用于通过创新"压缩"（compaction）技术自主工作超过24小时的专业编码模型[43]。加上Claude Sonnet 4.5已确立的编码统治地位和激进的安全过滤器，开发者面临前所未有的选择：

来自主题: AI技术研报

11298 点击 2025-11-21 17:09

4K超分Agent修图师来了！一键救活所有模糊照片

由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs以及加州大学Merced分校的研究者联合提出的基于AI智能体的方法4KAgent针对不同类型的图像以及需求对图像进行智能修复并放大到4K分辨率，带来优秀的视觉感知效果。该工作已被NeurIPS 2025接收。

来自主题: AI技术研报

8319 点击 2025-11-21 17:03