AI资讯新闻榜单内容搜索-智能体框架

超越Claude Mythos和GPT-5.5！斯坦福Agent验证框架拿下SOTA，Transformer作者转发

Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架，该方法是一种通用的验证机制，可与任意Agent Harness和模型结合。

来自主题: AI技术研报

8266 点击 2026-04-27 15:18

乐鑫信息科技 (688018.SH) 正式推出 ESP-Claw —— 以 Chat Coding（聊天造物）为核心的 AI 智能体框架。它突破了编程边界，让人人都能通过对话定义智能设备。

来自主题: AI技术研报

10191 点击 2026-04-22 10:43

如今的大多数智能体，仍然活在一种「失忆式工作」模式中：每一次检索都是从零开始，每一条推理路径都无法沉淀，每一次失败也不会转化为经验。它们虽能多轮交互，但很难在深度研究中持续变强。

来自主题: AI技术研报

9237 点击 2026-04-20 14:02

多模态大模型在代码能力上进步惊人，但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision，让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中，SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报

9526 点击 2026-03-16 14:25

现有的 LLM 自动化 CUDA 方法大多只能优化单个 Kernel，面对完整的端到端 GPU 程序（如整个 VisionTransformer 推理）往往束手无策。

来自主题: AI技术研报

8238 点击 2026-03-05 14:28

大模型的能力正在被不同的范式逐步解锁：In-Context Learning 展示了模型无需微调即可泛化到新任务；Chain-of-Thought 通过引导模型分步推理来提升复杂问题的求解能力；近期，智能体框架则赋予模型调用工具、多轮交互的能力。

来自主题: AI技术研报

10466 点击 2026-01-30 16:05

在AI视频创作过程中，创作者常因频繁切换多种工具而疲惫，导致创作热情消磨。近期，多所高校联合开源的UniVA框架，像一位「AI导演」，能整合多种视频工具，提供从脚本到成片的一站式自动化体验，改变传统「抽卡」式创作，支持多轮交互和主动纠错，还能实现风格迁移、前传创作等功能，为视频创作带来高效与便捷。

来自主题: AI技术研报

9983 点击 2025-11-26 14:37

在数字经济浪潮中，企业对于高效、精准的信息获取与决策支持的需求日益迫切。从前沿科学探索到行业趋势分析，再到企业级决策支持，一个能够从海量异构数据源中提取关键知识、执行多步骤推理并生成结构化或多模态输出的「深度研究系统」正变得不可或缺。

来自主题: AI技术研报

8202 点击 2025-11-12 17:05

机器之心报道编辑：Panda 刚刚，OpenHands 开发团队发布了一篇新论文，正式宣布广受欢迎的软件开发智能体框架 OpenHands （GitHub star 已超 6.4 万）中的智能体组件

来自主题: AI技术研报

8538 点击 2025-11-08 15:50

在人工智能领域，推理语言模型（RLM）虽然在数学与编程任务中已展现出色性能，但在像医学这样高度依赖专业知识的场景中，一个亟待回答的问题是：复杂的多步推理会帮助模型提升医学问答能力吗？要回答这个问题，需要构建足够高质量的医学推理数据，当前医学推理数据的构建存在以下挑战：

来自主题: AI技术研报

10123 点击 2025-11-03 14:50