AI资讯新闻榜单内容搜索-模型训练

模型A：幸亏有你，我才不得0分，模型B：俺也一样

琳琅满目的乐高积木，通过一块又一块的叠加，可以创造出各种栩栩如生的人物、景观等，不同的乐高作品相互组合，又能为爱好者带来新的创意。

来自主题: AI技术研报

9047 点击 2024-01-06 16:37

解决扩散模型「不识字」的问题，Textdiffuser采用两阶段（布局+图像）生成框架，显著提升了相关性能的指标！

来自主题: AI资讯

5083 点击 2024-01-06 16:09

这篇论文介绍了一项新的任务 —— 指向性遥感图像分割（RRSIS），以及一种新的方法 —— 旋转多尺度交互网络（RMSIN）。

来自主题: AI技术研报

4084 点击 2024-01-06 11:53

本文探讨了大模型套壳的问题，解释了大模型的内核和预训练过程。同时，介绍了“原创派”和“模仿派”两种预训练框架的差异，并讨论了通过“偷”聊天模型数据进行微调的现象。最后，提出了把“壳”做厚才是竞争力的观点。

来自主题: AI资讯

7829 点击 2024-01-04 09:53

本文介绍了为什么在AI计算中要使用GPU，以及GPU与CPU的区别和作用。GPU具备强悍的并行计算能力，适合处理大量高强度并行计算任务，包括深度学习算法。

来自主题: AI资讯

4947 点击 2024-01-02 21:29

最近由UCSC的研究人员发表论文，证明大模型的零样本或者少样本能力，几乎都是来源于对于训练数据的记忆。

来自主题: AI资讯

5803 点击 2024-01-02 15:02

今天分享一篇符尧大佬的一篇数据工程（Data Engineering）的文章，解释了speed of grokking指标是什么，分析了数据工程

来自主题: AI资讯

9824 点击 2024-01-02 11:13

对于ChatGPT变笨原因，学术界又有了一种新解释。加州大学圣克鲁兹分校一项研究指出：在训练数据截止之前的任务上，大模型表现明显更好。

来自主题: AI技术研报

4704 点击 2024-01-01 23:12

一个来自MIT博士生的惊人发现：只需对Transformer的特定层进行一种非常简单的修剪，即可在缩小模型规模的同时显著提高模型性能。

来自主题: AI技术研报

2038 点击 2023-12-31 12:01

国内首个以国产全功能GPU为底座的大规模算力集群，正式落地了！这便是来自摩尔线程的KUAE智算中心，全国产千卡千亿模型训练平台。

来自主题: AI资讯

11482 点击 2023-12-21 11:03