AI资讯新闻榜单内容搜索-框架

选LLM-Judge评估，用这个可证明的人类对齐评估框架， ICLR2025匿名论文

在当今AI技术迅猛发展的背景下，大语言模型（LLM）的评估问题已成为一个不可忽视的挑战。传统的做法是直接采用最强大的模型（如GPT-4）进行评估，这就像让最高法院的大法官直接处理所有交通违章案件一样，既不经济也不一定总能保证公正。

来自主题: AI技术研报

7301 点击 2025-01-20 10:50

一个新框架，让Qwen版o1成绩暴涨：在博士级别的科学问答、数学、代码能力的11项评测中，能力显著提升，拿下10个第一！这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。

来自主题: AI技术研报

8183 点击 2025-01-18 15:00

Uni-AdaFocus 是一个通用的高效视频理解框架，实现了降低时间、空间、样本三维度冗余性的统一建模。代码和预训练模型已开源，还有在自定义数据集上使用的完善教程，请访问项目链接。

来自主题: AI资讯

8894 点击 2025-01-18 10:03

还在为部署RAG系统的庞大体积和高性能门槛困扰吗？港大黄超教授团队最新推出的轻量级MiniRAG框架很好地解决了这一问题。通过优化架构设计，MiniRAG使得1.5B级别的小模型也能高效完成RAG任务，为端侧AI部署提供了更多可能性。

来自主题: AI资讯

10018 点击 2025-01-16 16:14

近期，OpenAI CEO Sam Altman 宣布，2025 年将推出名为 “Operator” 的虚拟员工计划，AI 代理将能够自主执行任务，如写代码、预订旅行等，成为企业中的 “数字同事”。

来自主题: AI技术研报

9035 点击 2025-01-16 10:12

2024 年，我花了相当一部分时间在研究多智能体系统，主要是 AutoGen，一个用于构建 AI 应用的 OSS 框架，并为此写了一本书《Multi-Agent Systems with AutoGen》。

来自主题: AI资讯

10486 点击 2025-01-15 10:21

本地训练的客户模型忽视了全局数据中明显的更广泛的模式，聚合的全局模型可能无法准确反映所有客户端的数据分布，甚至可能出现「辛普森悖论」—— 多端各自数据分布趋势相近，但与多端全局数据分布趋势相悖。

来自主题: AI技术研报

8423 点击 2025-01-13 13:36

论文能不能中？可以用AI提前预测～港大黄超教授团队提出多智能体自动化框架GraphAgent，能自动构建和解析知识图谱中的复杂语义网络，应对各类预测和生成任务。

来自主题: AI资讯

9134 点击 2025-01-10 16:40

随着大语言模型（LLM）技术的快速发展，单一AI智能体已经展现出强大的问题解决能力。然而，在面对复杂的企业级应用场景时，单一智能体的能力往往显得捉襟见肘。

来自主题: AI技术研报

7416 点击 2025-01-09 10:28

Falcon 方法是一种增强半自回归投机解码框架，旨在增强 draft model 的并行性和输出质量，以有效提升大模型的推理速度。Falcon 可以实现约 2.91-3.51 倍的加速比，在多种数据集上获得了很好的结果，并已应用到翼支付多个实际业务中。

来自主题: AI技术研报

8489 点击 2025-01-08 14:38