ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存
ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存开源大语言模型(LLM)百花齐放,为了让它们适应各种下游任务,微调(fine-tuning)是最广泛采用的基本方法。基于自动微分技术(auto-differentiation)的一阶优化器(SGD、Adam 等)虽然在模型微调中占据主流,然而在模型越来越大的今天,却带来越来越大的显存压力。
搜索
开源大语言模型(LLM)百花齐放,为了让它们适应各种下游任务,微调(fine-tuning)是最广泛采用的基本方法。基于自动微分技术(auto-differentiation)的一阶优化器(SGD、Adam 等)虽然在模型微调中占据主流,然而在模型越来越大的今天,却带来越来越大的显存压力。
检索增强式生成(RAG)是一种使用检索提升语言模型的技术。
无需录制团队、拍摄装备、摄像技能或后期编辑。
AI输入法不止输入。
趁国内大模型“虚弱”,抢跑者取胜。
只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。
为了让大模型在特定任务、场景下发挥更大作用,LoRA这样能够平衡性能和算力资源的方法正在受到研究者们的青睐。
马斯克连回两条推文为xAI造势,宣布8月发布Grok 2,年底将推出在10万张H100上训练的Grok 3,芯片加持创新数据训练,打造对标GPT的新一代大语言模型。
Meta的GenAI团队在最新研究中介绍了Meta 3D Gen模型:可以在不到1分钟的时间内从文本直接端到端生成3D资产。
如何才是一台能真正帮到孩子的AI学习机?最近,搭载了星火4.0大模型,并全面升级AI 1v1答疑辅导实现了超拟人对话的讯飞AI学习机,堪称最省爸妈的AI神器。