⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化
⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案:搜索自博弈 Search Self-play(SSP)⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是:让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」,它们在对抗训练中共同进化,使训练难度随着模型能⼒动态提升,最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。
来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案:搜索自博弈 Search Self-play(SSP)⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是:让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」,它们在对抗训练中共同进化,使训练难度随着模型能⼒动态提升,最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。
题图 | 来自SeaArt 作者 | 落日飞车 如今在全球AI竞赛中,中国厂商已从早期的跟跑者,转变为不可忽视的强力竞争者。 时间回到2023年,AI相关榜单都还被西方产品所霸占,仅过了一年这个格局就
谷歌AI掌舵人Jeff Dean点赞了一项新研究,还是出自清华姚班校友钟沛林团队之手。Nested Learning嵌套学习,给出了大语言模型灾难性遗忘这一问题的最新答案!简单来说,Nested Learning(下称NL)就是让模型从扁平的计算网,变成像人脑一样有层次、能自我调整的学习系统。
从手机、PC、汽车到机器人,我们需要怎样的端侧AI "芯" 思路? 作者 | 云鹏 编辑 | 漠影 机器人走猫步引爆行业、舞蹈功夫如人类般丝滑;AI手机一句话订外卖做报告、懂你所想知你所言;AI PC
AGI之路,终于交汇到了世界模型的战场。 李飞飞,发布了旗下首款商用世界模型Marble;几乎同一时间,Lecun离职Meta,准备创立自己的世界模型公司;在此之前,谷歌旗下的世界模型Genie 3,也曾掀起业界轰动。
Karpathy可能给出了美国AI圈最保守的估计:「AGI还需等待10年。」相比于预测本身,美国AI自媒体节目「TBPN」主持人John Coogan更关心的是,当所有人都开始相信这个时间点,会带来怎样的影响。
一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。
无人注意的角落里,权威榜单 Billboard 接二连三地迎来一批新歌手上榜,低调但行动快速,闷声就登顶了。权威音乐榜单 Billboard 旗下的乡村音乐排名榜,最新首位《Walk My Walk》,是一首 AI 生成的歌曲作品,Breaking Rust 自然也是一位 AI 歌手。从数据来看,它不仅登顶了,还连续在榜了三周。对于任何一个新人来说,都是堪称「爆」了的成绩。
大模型编程最近太猛了。
就在今天,李飞飞发布了全新的世界模型,开启公测,人人可玩。