
量化大模型退化严重?ETH北航字节推出LoRA新范式 | ICML 2024
量化大模型退化严重?ETH北航字节推出LoRA新范式 | ICML 2024大模型应用开卷,连一向保守的苹果,都已释放出发展端侧大模型的信号。
来自主题: AI技术研报
9304 点击 2024-06-08 16:13
大模型应用开卷,连一向保守的苹果,都已释放出发展端侧大模型的信号。
怎样才能将可爱又迷人的柯基与柴犬的图像进行区分?
华南理工大学和香港大学的研究人员在ICML 2024上提出了一个简单而通用的时空提示调整框架FlashST,通过轻量级的时空提示网络和分布映射机制,使预训练模型能够适应不同的下游数据集特征,显著提高了模型在多种交通预测场景中的泛化能力。
在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transformer和SSM直接成了「一家亲」,Mamba-2这是要一统江湖了?
改进Transformer核心机制注意力,让小模型能打两倍大的模型!
本文介绍了香港科技大学(广州)的一篇关于大模型高效微调(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」
在大型语言模型的训练过程中,数据的处理方式至关重要。
大模型带来的生命科学领域突破,刚刚再传新进展。