AI资讯新闻榜单内容搜索-框架

硅谷团队抄袭清华系大模型？面壁智能李大海独家回应：套壳现象难规避

抄袭框架和预训练数据的情况，是更狭义的套壳。

来自主题: AI资讯

8433 点击 2024-06-05 09:56

自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。

来自主题: AI技术研报

8766 点击 2024-06-04 17:36

只用强化学习来微调，无需人类反馈，就能让多模态大模型学会做决策！

来自主题: AI技术研报

8777 点击 2024-06-04 17:23

Transformer挑战者、新架构Mamba，刚刚更新了第二代：

来自主题: AI技术研报

10233 点击 2024-06-04 16:13

华南理工大学和香港大学的研究人员在ICML 2024上提出了一个简单而通用的时空提示调整框架FlashST，通过轻量级的时空提示网络和分布映射机制，使预训练模型能够适应不同的下游数据集特征，显著提高了模型在多种交通预测场景中的泛化能力。

来自主题: AI技术研报

8493 点击 2024-06-04 15:54

在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了？

来自主题: AI技术研报

7510 点击 2024-06-04 15:20

改进Transformer核心机制注意力，让小模型能打两倍大的模型！

来自主题: AI技术研报

8550 点击 2024-06-03 15:44

3D 重建和新视图合成技术在虚拟现实和增强现实等领域有着广泛的应用。NeRF 通过隐式地将场景编码为辐射场，在视图合成上取得了显著的成功。

来自主题: AI技术研报

8729 点击 2024-06-02 14:46

即使最强大的 LLM 也难以通过 token 索引来关注句子等概念，现在有办法了。

来自主题: AI资讯

8635 点击 2024-05-31 19:10

每个token只需要5.28%的算力，精度就能全面对标Llama 3。

来自主题: AI技术研报

9615 点击 2024-05-30 15:51