ICML 2024 | 梯度检查点太慢?不降速、省显存,LowMemoryBP大幅提升反向传播显存效率
ICML 2024 | 梯度检查点太慢?不降速、省显存,LowMemoryBP大幅提升反向传播显存效率自从大型 Transformer 模型逐渐成为各个领域的统一架构,微调就成为了将预训练大模型应用到下游任务的重要手段
自从大型 Transformer 模型逐渐成为各个领域的统一架构,微调就成为了将预训练大模型应用到下游任务的重要手段
生成式模型原本被设计来模仿人类的各种复杂行为,但人们普遍认为它们最多只能达到与其训练数据中的专家相当的水平。不过,最新的研究突破了这一限制,表明在特定领域,如国际象棋,通过采用低温采样技术,这些模型能够超越它们所学习的那些专家,展现出更高的能力。
近两年最热的赛道就是 AI 了,我们技术团队早在去年上半年就开始布局相关的技术研究,但现在一年多时间过去了,产品上却迟迟没有做任何与 AI 相关的功能。
这期对谈如果要提炼出一个核心观点,我想就是——人工智能的持续进步,现在需要开创性的用户界面和产品体验,但这不只是一个技术活儿,也是一个艺术活儿,才能把尖端科技用柔软轻盈的方式带入到大众的生活里。
大模型训练推理神作,又更新了!
“让个人按照自己的方式探索世界,重新定义旅行。”
科技巨头计划在未来几年在AI资本支出上花费1万亿美元,但几乎没有任何实质性的、可见的成果来证明这些投入是值得的。
人工智能安全已经来到临界点
评估大模型是否诚实的基准来了!
2024谷歌学术指标(Google Scholar Metrics)出炉,AI顶会掀起狂欢—— CVPR成为第二大学术出版物,超越Science,仅次于Nature。