大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架
大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。
改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。
PPIO推出新AI产品,助力分布式云计算及AIGC应用。
KV Cache 是大模型推理性能优化的一个常用技术,该技术可以在不影响任何计算精度的前提下,通过空间换时间的思想,提高推理性能。
2024年,落地,无疑是大模型最重要的主题。
千亿参数规模的大模型推理,服务器仅用4颗CPU就能实现!
最近,新加坡国立大学联合南洋理工大学和哈工深的研究人员共同提出了一个全新的视频推理框架,这也是首次大模型推理社区提出的面向视频的思维链框架(Video-of-Thought, VoT)。视频思维链VoT让视频多模态大语言模型在复杂视频的理解和推理性能上大幅提升。该工作已被ICML 2024录用为Oral paper。
微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。
如何在有限的内存下实现高效的大模型推理,是端侧AI发展的重要任务。
大模型推理速度提升50%以上,还能保证少样本学习性能!
近年来,大语言模型(Large Language Models, LLMs)受到学术界和工业界的广泛关注,得益于其在各种语言生成任务上的出色表现,大语言模型推动了各种人工智能应用(例如ChatGPT、Copilot等)的发展。然而,大语言模型的落地应用受到其较大的推理开销的限制,对部署资源、用户体验、经济成本都带来了巨大挑战。