AI资讯新闻榜单内容搜索-模型训练

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析，目前已被NeurIPS 2023录用。同时，该分析还可以解释扩散模型中常用但未知原理的1/√2 scaling操作能加速训练的现象。

来自主题: AI技术研报

8490 点击 2024-02-29 13:52

根据 OpenAI 披露的技术报告，Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式，并通过 Transformer 和扩散模型结合，展现了卓越的扩展（scale）特性。

来自主题: AI技术研报

8254 点击 2024-02-29 13:35

Reddit和OpenAI及谷歌，竟有着如此错综复杂的关系？最近，Reddit和谷歌双双官宣了一项6000万美元的合作协议，Reddit的数据将帮助谷歌训练AI模型。巧的是，Altman正是Reddit股东之一。

来自主题: AI资讯

9629 点击 2024-02-28 16:08

随着大语言模型（LLMs）在近年来取得显著进展，它们的能力日益增强，进而引发了一个关键的问题：如何确保他们与人类价值观对齐，从而避免潜在的社会负面影响？

来自主题: AI技术研报

10644 点击 2024-02-27 14:03

大模型的成功很大程度上要归因于 Scaling Law 的存在，这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系，为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。

来自主题: AI技术研报

3390 点击 2024-02-27 14:00

AAAI 2024 奖项陆续公布，继杰出论文奖后，今天博士论文奖也公布了。

来自主题: AI资讯

8639 点击 2024-02-26 18:41

扩散模型，迎来了一项重大新应用——像Sora生成视频一样，给神经网络生成参数，直接打入了AI的底层！

来自主题: AI技术研报

8573 点击 2024-02-25 16:00

好消息，好消息，真·Sora视频上新了！走过路过不要错过！

来自主题: AI资讯

8299 点击 2024-02-25 15:45

最近几年，基于 Transformer 的架构在多种任务上都表现卓越，吸引了世界的瞩目。使用这类架构搭配大量数据，得到的大型语言模型（LLM）等模型可以很好地泛化用于真实世界用例。

来自主题: AI技术研报

8320 点击 2024-02-24 14:51

继 2023 年 1 月 YOLOv8 正式发布一年多以后，YOLOv9 终于来了！

来自主题: AI技术研报

8333 点击 2024-02-23 14:42