
何恺明新作:给扩散模型加正则化,无需预训练无需数据增强,超简单实现性能提升
何恺明新作:给扩散模型加正则化,无需预训练无需数据增强,超简单实现性能提升扩散模型风头正盛,何恺明最新论文也与此相关。 研究的是如何把扩散模型和表征学习联系起来—— 给扩散模型加上“整理收纳”功能,使其内部特征更加有序,从而生成效果更加自然逼真的图片。
扩散模型风头正盛,何恺明最新论文也与此相关。 研究的是如何把扩散模型和表征学习联系起来—— 给扩散模型加上“整理收纳”功能,使其内部特征更加有序,从而生成效果更加自然逼真的图片。
谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢?
为提升大模型“推理+搜索”能力,阿里通义实验室出手了。
全球网友用闲置显卡组团训练大模型。40B大模型、20万亿token,创下了互联网上最大规模的预训练新纪录!去中心化AI的反攻,正式开始。OpenAI等巨头的算力霸权,这次真要凉了?
何恺明团队又一力作!这次他们带来的是「生成模型界的降维打击」——MeanFlow:无需预训练、无需蒸馏、不搞课程学习,仅一步函数评估(1-NFE),就能碾压以往的扩散与流模型!
如今,C端产品已经淡出零一万物的业务版图,To B成为核心。
我们发现,当模型在测试阶段花更多时间思考时,其推理表现会显著提升,这打破了业界普遍依赖预训练算力的传统认知。
和人工标记数据说拜拜,利用预训练语言模型中的注意力机制就能选择可激发推理能力的训练数据!
vivo自研大模型用的数据筛选方法,公开了。
不用引入外部数据,通过自我博弈(Self-play)就能让预训练大模型学会推理?