强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法在奖励中减去平均奖励
在奖励中减去平均奖励
Unbounded 是由 Google 研发的一个创新的角色模拟生成性无限游戏,它通过采用最新的生成模型技术,突破了传统视频游戏的局限。
Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型(MLLM),旨在实现跨多个平台的通用用户界面(UI)理解。
Agent-to-Sim (ATS) 是一个创新的三维模拟系统,能够从日常视频集合中学习三维代理的交互行为模型,由 Meta Codec Avatar 实验室主导研发。
来自华东师范大学、南洋理工和中科院等高校的联合研究团队提出了一种新颖的人工智能教育框架“场景-对象-评估”(SOE),旨在利用大型语言模型(LLMs)构建能够模拟人类学生行为和个体差异的虚拟学生代理(LVSA)。
国产大模型首次在国际最具挑战的“大模型竞技场”榜单上超过GPT-4o(5月版本),当零一万物的名字紧跟在OpenAI、Google之后,李开复却如是坦言。
AI coding 是模型推理能力增加之后的下一个竞争高地,除了模型厂商、AI Labs 之外,这个领域的参与者也有着 Cursor 这样的初创团队。
一个简单但具有挑战性的基准
近年来,大语言模型(Large Language Models, LLMs)的研究取得了重大进展,并对各个领域产生了深远影响。然而,LLMs的卓越性能来源于海量数据的大规模训练,这导致LLMs的训练成本明显高于传统模型。
上周Anthropic发布了Claude 3.5 Sonnet的升级,让AI助手能够通过"电脑使用"功能直接与计算机交互。