AI资讯新闻榜单内容搜索-模型训练

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野

如何突破 Transformer 的 Attention 机制？中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源，并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型， vHeat 同时兼顾了：计算复杂度（1.5次方）、全局感受野、物理可解释性。

来自主题: AI技术研报

9910 点击 2024-06-03 17:51

对话田渊栋：Scaling law代表一个非常悲观的未来

Scaling law发展到最后，可能每个人都站在一个数据孤岛上。

来自主题: AI资讯

8565 点击 2024-06-03 17:23

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

改进Transformer核心机制注意力，让小模型能打两倍大的模型！

来自主题: AI技术研报

9931 点击 2024-06-03 15:44

next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

研究人员提出了一种新的大型语言模型训练方法，通过一次性预测多个未来tokens来提高样本效率和模型性能，在代码和自然语言生成任务上均表现出显著优势，且不会增加训练时间，推理速度还能提升至三倍。

来自主题: AI技术研报

9669 点击 2024-06-03 11:00

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

3D 重建和新视图合成技术在虚拟现实和增强现实等领域有着广泛的应用。NeRF 通过隐式地将场景编码为辐射场，在视图合成上取得了显著的成功。

来自主题: AI技术研报

9855 点击 2024-06-02 14:46

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 - 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。

来自主题: AI技术研报

9273 点击 2024-06-02 14:38

ChatGPT 负责人：GPT-4 越来越聪明是因为 post-traning，大模型短期没有数据瓶颈

John Schulman 是 OpenAI 联合创始人、研究科学家（OpenAI 现存最主要具有技术背景的创始人），他领导了 ChatGPT 项目，在 OpenAI 内部长期负责模型 post-traning，在 Ilya 和 Jan Leike 离开 OpenAI 后，下一代模型安全性风险相关的研究也会由 John Schulman 来接替负责。

来自主题: AI资讯

9452 点击 2024-06-01 19:11

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一，但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今，合成数据集正成为一种新兴的，用于替代现实世界数据的方法，但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频，而这并不适用于人群的视频识别任务。

来自主题: AI技术研报

10432 点击 2024-06-01 19:06

单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

乘法和排序也有效。

来自主题: AI技术研报

9069 点击 2024-06-01 19:00

神笔马良画出三维世界，基于线稿的3D生成编辑方法SketchDream来了

基于人工智能的数字内容生成，即 AIGC 在二维图像生成领域取得了很大的成功，但在三维生成方面仍存在挑战。智能化生成三维模型在 AR/VR、工业设计、建筑设计和游戏影视等方面都有应用价值，现有的智能化三维生成方法已经可以生成高质量的三维模型，但如何对生成结果进行精确控制，并对真实模型或生成的模型进行细节的修改，从而让用户自由定制高质量的三维模型仍然是一个待解决的问题。

来自主题: AI技术研报

9694 点击 2024-05-31 19:31