
UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导
UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导来自UCLA的华人团队提出一种全新的LLM自我对弈系统,能够让LLM自我合成数据,自我微调提升性能,甚至超过了用GPT-4作为专家模型指导的效果。
来自主题: AI技术研报
6326 点击 2024-02-02 17:27
来自UCLA的华人团队提出一种全新的LLM自我对弈系统,能够让LLM自我合成数据,自我微调提升性能,甚至超过了用GPT-4作为专家模型指导的效果。
AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法,让Llama2一举击败GPT-4 0613、Claude 2、Gemini Pro领先模型。
AI可以从自己生成的「合成数据」中学习,最重要的是,能够大幅提升数据问题解决和代码生成的能力。
大家都在猜测,Q*是否就是「Q-learning + A*」。 AI大牛田渊栋也详细分析了一番,「Q*=Q-learning+A*」的假设,究竟有多大可能性。 与此同时,越来越多人给出判断:合成数据,就是LLM的未来。
千亿级大模型正迅速耗尽世界的高质量数据。对此,英伟达和UT提出了MimicGen系统。从人工合成数据中获得人工智能,将是未来的发展方向。
来自伯克利人工智能研究(BAIR)实验室的研究人员开源深度学习模型 InstructPix2Pix,它可以遵循人类指令来编辑图像。InstructPix2Pix 在合成数据上进行训练,表现优于基线 AI 图像编辑模型。