硅谷团队抄袭清华系大模型?面壁智能李大海独家回应:套壳现象难规避
硅谷团队抄袭清华系大模型?面壁智能李大海独家回应:套壳现象难规避抄袭框架和预训练数据的情况,是更狭义的套壳。
抄袭框架和预训练数据的情况,是更狭义的套壳。
自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。
只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!
Transformer挑战者、新架构Mamba,刚刚更新了第二代:
华南理工大学和香港大学的研究人员在ICML 2024上提出了一个简单而通用的时空提示调整框架FlashST,通过轻量级的时空提示网络和分布映射机制,使预训练模型能够适应不同的下游数据集特征,显著提高了模型在多种交通预测场景中的泛化能力。
在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transformer和SSM直接成了「一家亲」,Mamba-2这是要一统江湖了?
改进Transformer核心机制注意力,让小模型能打两倍大的模型!
3D 重建和新视图合成技术在虚拟现实和增强现实等领域有着广泛的应用。NeRF 通过隐式地将场景编码为辐射场,在视图合成上取得了显著的成功。
即使最强大的 LLM 也难以通过 token 索引来关注句子等概念,现在有办法了。
每个token只需要5.28%的算力,精度就能全面对标Llama 3。