AI资讯新闻榜单内容搜索-训练

天大、南大发布LPSNet：无透镜成像下的人体三维姿态与形状估计 | CVPR 2024

天津大学与南京大学联合团队在CVPR 2024上发表了LPSNet项目，提出了一种端到端的无透镜成像下的3D人体姿态和形状估计框架，通过多尺度无透镜特征解码器和双头辅助监督机制，直接从编码后的无透镜成像数据中提取特征并提高姿态估计的准确度。

来自主题: AI技术研报

9633 点击 2024-06-06 11:29

1毛钱1百万token，写2遍红楼梦！国产大模型下一步还想卷什么？

大模型价格战，这匹国产黑马又破纪录了！最低的GLM-4 Flash版本，百万token价格已经低至0.1元，可以说是击穿地心。MaaS 2.0大升级，让企业训练私有模型的成本无限降低。

来自主题: AI资讯

10537 点击 2024-06-06 11:09

KAN会引起大模型的范式转变吗？

本文介绍了KAN网络算法的原理和优势，探讨了其在深度学习领域可能引发的范式转变。 • ⚡ KAN网络将可学习的激活函数从神经元移到了神经网络的边上，表现出更高的准确性和更少的参数量 • ???? KAN在数学和物理领域的实验中展现了卓越性能，提供了一种新的科学发现的路径 • ???? KAN具有更快的神经缩放定律和可解释性，为AI领域带来了新的探索可能性

来自主题: AI技术研报

11145 点击 2024-06-05 23:28

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

循环调用CLIP，无需额外训练就有效分割无数概念。包括电影动漫人物，地标，品牌，和普通类别在内的任意短语。

来自主题: AI技术研报

10012 点击 2024-06-05 23:22

腾讯混元、北大发现Scaling law「浪涌现象」，解决学习率调参难题

过去十年间，基于随机梯度下降（SGD）的深度学习模型在许多领域都取得了极大的成功。与此同时各式各样的 SGD 替代品也如雨后春笋般涌现。在这些众多替代品中，Adam 及其变种最受追捧。无论是 SGD，还是 Adam，亦或是其他优化器，最核心的超参数非 Learning rate 莫属。因此如何调整好 Leanring rate 是炼丹师们从一开始就必学的技能。

来自主题: AI技术研报

8924 点击 2024-06-05 22:57

硅谷团队抄袭清华系大模型？面壁智能李大海独家回应：套壳现象难规避

抄袭框架和预训练数据的情况，是更狭义的套壳。

来自主题: AI资讯

10507 点击 2024-06-05 09:56

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

就算是 OpenAI 在舆论场也无法逃过版权保护的呼声。

来自主题: AI技术研报

9787 点击 2024-06-04 18:04

单个4090可推理，2000亿稀疏大模型「天工MoE」开源

在大模型浪潮中，训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战，尤其是在数百亿或数千亿参数的规模上。为了应对这些挑战，稀疏模型，如专家混合模型（MoE），已经变得越来越重要。这些模型通过将计算分配给各种专门的子模型或「专家」，提供了一种经济上更可行的替代方案，有可能以极低的资源需求达到甚至超过密集型模型的性能。

来自主题: AI技术研报

10268 点击 2024-06-04 17:59

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

来自主题: AI技术研报

10170 点击 2024-06-04 17:45

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。

来自主题: AI技术研报

9993 点击 2024-06-04 17:36