AI资讯新闻榜单内容搜索-研究

next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

研究人员提出了一种新的大型语言模型训练方法，通过一次性预测多个未来tokens来提高样本效率和模型性能，在代码和自然语言生成任务上均表现出显著优势，且不会增加训练时间，推理速度还能提升至三倍。

来自主题: AI技术研报

9673 点击 2024-06-03 11:00

LLM的「母语」是什么？

在以英语为主的语料库上训练的多语言LLM，是否使用英语作为内部语言？对此，来自EPFL的研究人员针对Llama 2家族进行了一系列实验。

来自主题: AI技术研报

10326 点击 2024-06-03 10:53

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察，也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中，他盘点分析了 4 月份发布的四个主要新模型：Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。

来自主题: AI技术研报

10694 点击 2024-06-02 14:42

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 - 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。

来自主题: AI技术研报

9277 点击 2024-06-02 14:38

ChatGPT 负责人：GPT-4 越来越聪明是因为 post-traning，大模型短期没有数据瓶颈

John Schulman 是 OpenAI 联合创始人、研究科学家（OpenAI 现存最主要具有技术背景的创始人），他领导了 ChatGPT 项目，在 OpenAI 内部长期负责模型 post-traning，在 Ilya 和 Jan Leike 离开 OpenAI 后，下一代模型安全性风险相关的研究也会由 John Schulman 来接替负责。

来自主题: AI资讯

9455 点击 2024-06-01 19:11

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一，但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今，合成数据集正成为一种新兴的，用于替代现实世界数据的方法，但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频，而这并不适用于人群的视频识别任务。

来自主题: AI技术研报

10433 点击 2024-06-01 19:06