AI资讯新闻榜单内容搜索-Mu

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Mu
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。

来自主题: AI技术研报
6564 点击    2025-03-13 14:41
1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是,要求短推理时,甚至击败了GPT-4o——用的还是相同的token预算!

来自主题: AI技术研报
4861 点击    2025-03-10 10:22
让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在 50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

来自主题: AI技术研报
7030 点击    2025-03-09 13:32
DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络(Multi-head Latent Attention, MLA)是其经济推理架构的核心之一,通过对键值缓存进行低秩压缩,显著降低推理成本 [1]。

来自主题: AI技术研报
4908 点击    2025-03-07 10:24
谷歌最新PlanGEN框架,开发自适应Multi-Agent,错过太可惜,不用邀请码

谷歌最新PlanGEN框架,开发自适应Multi-Agent,错过太可惜,不用邀请码

谷歌最新PlanGEN框架,开发自适应Multi-Agent,错过太可惜,不用邀请码

Agent这两天随着邀请码进入公众视野,展示了不凡的推理能力。然而,当面对需要精确规划和深度推理的复杂问题时,即使是最先进的LLMs也常常力不从心。Google研究团队提出的PlanGEN框架,正是为解决这一挑战而生。

来自主题: AI技术研报
2873 点击    2025-03-06 16:55
有没有复杂任务自动化的Multi-Agent框架?用Nexus,几行YAML搞定数据清洗

有没有复杂任务自动化的Multi-Agent框架?用Nexus,几行YAML搞定数据清洗

有没有复杂任务自动化的Multi-Agent框架?用Nexus,几行YAML搞定数据清洗

随着R1等先进推理模型展现出接近人类的推理能力,多代理系统(Multi-Agent Systems,MAS)的发展也出现了前所未有的机遇。然而,随着我们尝试构建越来越复杂的多代理系统,一个核心问题日益凸显:如何在保持系统灵活性的同时,降低开发和维护的复杂度?

来自主题: AI技术研报
7003 点击    2025-03-04 16:12
微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

Phi-4系列模型上新了!56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体,读图推理性能碾压GPT-4o;另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM,支持128K token上下文。

来自主题: AI技术研报
4995 点击    2025-02-28 14:11
数据难清洗?试试ThinkJSON奖励算法,让DeepSeek-R1驱动Multi-Agent实现

数据难清洗?试试ThinkJSON奖励算法,让DeepSeek-R1驱动Multi-Agent实现

数据难清洗?试试ThinkJSON奖励算法,让DeepSeek-R1驱动Multi-Agent实现

在实际应用中,我们常常需要模型输出具有严格结构的数据,比如生物制药生产记录、金融交易报告或医疗健康档案等。这种结构化输出的需求在生物制造、金融服务、医疗健康等严格监管的领域尤为重要。

来自主题: AI技术研报
2956 点击    2025-02-27 10:25
开源赛道太挤了!月之暗面开源新版Muon优化器

开源赛道太挤了!月之暗面开源新版Muon优化器

开源赛道太挤了!月之暗面开源新版Muon优化器

省一半算力跑出2倍效果,月之暗面开源优化器Muon,同预算下全面领先。

来自主题: AI技术研报
6623 点击    2025-02-24 13:56