一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……
一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……为了对齐 LLM,各路研究者妙招连连。
为了对齐 LLM,各路研究者妙招连连。
大模型作为当下 AI 工业界和学术界当之无愧的「流量之王」,吸引了大批学者和企业投入资源去研究与训练。随着规模越做越大,系统和工程问题已经成了大模型训练中绕不开的难题。例如在 Llama3.1 54 天的训练里,系统会崩溃 466 次,平均 2.78 小时一次!
DeepMind最近被ICML 2024接收的一篇论文,完完全全暴露了他们背靠谷歌的「豪横」。一篇文章预估了这项研究所需的算力和成本,大概是Llama 3预训练的15%,耗费资金可达12.9M美元。
又一位AI明星初创的CEO,跑!路!了! 就在刚刚,AI圈被这个消息震惊了—— 出走谷歌、自立门户的Character.AI CEO Naom Shazeer,携总裁Daniel De Freitas以及研究团队的大波成员离开公司,重返老东家谷歌!
热议数月的 Character AI 寻求收购的消息,终于尘埃落定。 据 C.AI 官方博客,公司与 Google 达成协议,核心创始人 Noam Shazeer、Daniel De Freitas 以及研究团队,将加入 Google,剩余「大部分团队」将留在 C.AI,继续打造产品。
在AI领域,硅谷巨头Alphabet(谷歌母公司)和微软的论文引用量最高,远超其他公司。 不过,中国企业百度和腾讯在专利方面领先。
Llama 3.1 刚刚发布,你是否已经尝试了呢?就算你的个人计算机是最近的顶尖配置,运行其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率,研究者想出了多种多样的方法,但其中很多都会让模型牺牲一些准确度。
斯坦福大学心理学系研究科学家赵轩博士开发了一款人工智能心理疗愈 Agent——Sunnie,它具备多轮自然对话的能力,能够基于大语言模型推荐个性化活动。
为了解决这个问题,一些研究尝试通过强大的 Teacher Model 生成训练数据,来增强 Student Model 在特定任务上的性能。然而,这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。在无法持续获得高质量人类监督信号的情况下,如何持续迭代模型的能力,成为了亟待解决的问题。
智东西7月31日消息,根据顶级学术期刊《自然》(Nature)昨日报道,生成式AI在学术写作中的使用已迎来爆发式增长。相关研究显示生物医学领域最大数据库PubMed上10%的论文摘要都有AI写作嫌疑,相当于每年15万篇论文中都有AI的参与。