AI资讯新闻榜单内容搜索-大模型智能体

拖拽式搭建分布式Agent工作流！Maze让非技术人员几分钟搞定复杂任务

在大模型智能体（LLM Agent）落地过程中，复杂工作流的高效执行、资源冲突、跨框架兼容、分布式部署等问题一直困扰着开发者。而一款名为Maze的分布式智能体工作流框架，正以任务级精细化管理、智能资源调度、多场景部署支持等核心优势，为这些痛点提供一站式解决方案。

来自主题: AI资讯

8720 点击 2025-12-30 15:14

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

7937 点击 2025-10-20 10:13

腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

只花120元，效果吊打70000元微调！腾讯提出一种升级大模型智能体的新方法——无训练组相对策略优化Training-Free GRPO。无需调整任何参数，只要在提示词中学习简短经验，即可实现高性价比提升模型性能。

来自主题: AI技术研报

10315 点击 2025-10-15 17:06

大模型智能体不止能写代码，还能被训练成白帽黑客

当人们还在惊叹大模型能写代码、能自动化办公时，它们正在悄然踏入一个更敏感、更危险的领域 —— 网络安全。

来自主题: AI技术研报

6544 点击 2025-09-12 11:36

首个GUI多模态大模型智能体可信评测框架+基准：MLA-Trust

MLA-Trust 是首个针对图形用户界面（GUI）环境下多模态大模型智能体（MLAs）的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系，精心设计了 34 项高风险交互任务，横跨网页端与移动端双重测试平台，对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估，系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报

8443 点击 2025-07-05 13:02

大模型智能体如何突破规模化应用瓶颈，核心在于Agentic ROI

上海交通大学联合中科大在本文中指出：现阶段大模型智能体的主要障碍不在于模型能力不足，而在于其「Agentic ROI」尚未达到实用化门槛。研究团队提出 Agentic ROI（Agentic Return on Investment）这一核心指标，用于衡量一个大模型智能体在真实使用场景中所带来的「信息收益」与其「使用成本」之间的比值：

来自主题: AI技术研报

8548 点击 2025-05-30 15:06

264页智能体综述来了！MetaGPT等20家顶尖机构、47位学者参与

近期，大模型智能体（Agent）的相关话题爆火 —— 不论是 Anthropic 抢先 MCP 范式的快速普及，还是 OpenAI 推出的 Agents SDK 以及谷歌最新发布的 A2A 协议，都预示了 AI Agent 的巨大潜力。

来自主题: AI技术研报

8260 点击 2025-04-21 09:28

大模型「记忆断片」成历史！AI初创全新Zep系统，知识图谱破解上下文诅咒

Zep，一个为大模型智能体提供长期记忆的插件，能将智能体的记忆组织成情节，从这些情节中提取实体及其关系，并将它们存储在知识图谱中，从而让用户以低代码的方式为智能力构建长期记忆。

来自主题: AI技术研报

10690 点击 2025-02-26 14:53

浙大&通义全面评测智能体复杂任务规划能力，18主流大模型全不及格｜ICLR2025

在处理这类复杂任务的过程中，大模型智能体将问题分解为可执行的工作流（Workflow）是关键的一步。然而，这一核心能力目前缺乏完善的评测基准。为解决上述问题，浙大通义联合发布WorfBench——一个涵盖多场景和复杂图结构工作流的统一基准，以及WorfEval——一套系统性评估协议，通过子序列和子图匹配算法精准量化大模型生成工作流的能力。

来自主题: AI技术研报

8750 点击 2025-02-08 13:19

12个大模型攒局玩“大富翁”：Claude3.5爱合作，GPT-4o最“自私”｜谷歌DeepMind研究

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于Claude 3.5 Sonnet的智能体，就会表现出极强的合作意识。而GPT-4o则是主打一个“自私”，只考虑自己的短期利益。

来自主题: AI技术研报

7991 点击 2024-12-20 09:47