Mind Lab连续发布LoRA最新进展,大模型「持续学习」新范式浮现
Mind Lab连续发布LoRA最新进展,大模型「持续学习」新范式浮现最近,前沿实验室 Mind Lab 密集发布了一系列关于 LoRA 与 PEFT(高效微调)的研究结果,似乎描绘出了另一条大模型「持续学习」的路径。在 Mind Lab 的视角中,PEFT 不再是对大模型全参数后训练的一种廉价平替,更是实现从 “基础模型” 向 “可持续学习智能体” 过渡的核心架构机制。
搜索
最近,前沿实验室 Mind Lab 密集发布了一系列关于 LoRA 与 PEFT(高效微调)的研究结果,似乎描绘出了另一条大模型「持续学习」的路径。在 Mind Lab 的视角中,PEFT 不再是对大模型全参数后训练的一种廉价平替,更是实现从 “基础模型” 向 “可持续学习智能体” 过渡的核心架构机制。
训练强化学习智能体时,一个常见问题是:有些 level 太简单,智能体跑几遍就会;有些 level 又太难,智能体几乎得不到有效反馈。前者只是在重复已有能力,后者则会把训练预算消耗在无效探索上。真正有价值的训练环境,往往位于二者之间。
这是一款由在校生团队打造的通用学习智能体:可以深度解题、拆开讲清抽象概念,又能从上百页课件、文献里提炼出 cheatsheet、闪卡和练习题,还会记住每个用户的学习方式,像一个长期陪伴在身边的私人老师。
DIAMOND是一种新型的强化学习智能体,在一个由扩散模型构建的虚拟世界中进行训练,能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中,DIAMOND的平均得分超越了人类玩家,证明了其在模拟复杂环境中处理细节和进行决策的能力。
打造终身学习智能体,是研究界以来一直追求的目标。最近,帝国理工联手谷歌DeepMind打造了创新联合框架扩散增强智能体(DAAG),利用LLM+VLM+DM三大模型,让AI完成迁移学习、高效探索。
在图像生成领域占据主导地位的扩散模型,开始挑战强化学习智能体。