AI资讯新闻榜单内容搜索-模型训练

首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

CRATE-α是一种新型Transformer架构变体，通过设计改进提升了模型的可扩展性、性能和可解释性，CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型，其性能会随着模型和数据集规模扩大而继续提升。

来自主题: AI技术研报

10281 点击 2024-06-06 15:48

天大、南大发布LPSNet：无透镜成像下的人体三维姿态与形状估计 | CVPR 2024

天津大学与南京大学联合团队在CVPR 2024上发表了LPSNet项目，提出了一种端到端的无透镜成像下的3D人体姿态和形状估计框架，通过多尺度无透镜特征解码器和双头辅助监督机制，直接从编码后的无透镜成像数据中提取特征并提高姿态估计的准确度。

来自主题: AI技术研报

9602 点击 2024-06-06 11:29

KAN会引起大模型的范式转变吗？

本文介绍了KAN网络算法的原理和优势，探讨了其在深度学习领域可能引发的范式转变。 • ⚡ KAN网络将可学习的激活函数从神经元移到了神经网络的边上，表现出更高的准确性和更少的参数量 • ???? KAN在数学和物理领域的实验中展现了卓越性能，提供了一种新的科学发现的路径 • ???? KAN具有更快的神经缩放定律和可解释性，为AI领域带来了新的探索可能性

来自主题: AI技术研报

11111 点击 2024-06-05 23:28

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

循环调用CLIP，无需额外训练就有效分割无数概念。包括电影动漫人物，地标，品牌，和普通类别在内的任意短语。

来自主题: AI技术研报

9976 点击 2024-06-05 23:22

腾讯混元、北大发现Scaling law「浪涌现象」，解决学习率调参难题

过去十年间，基于随机梯度下降（SGD）的深度学习模型在许多领域都取得了极大的成功。与此同时各式各样的 SGD 替代品也如雨后春笋般涌现。在这些众多替代品中，Adam 及其变种最受追捧。无论是 SGD，还是 Adam，亦或是其他优化器，最核心的超参数非 Learning rate 莫属。因此如何调整好 Leanring rate 是炼丹师们从一开始就必学的技能。

来自主题: AI技术研报

8893 点击 2024-06-05 22:57