
贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM
贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM用来运行 Llama 3 405B 优势明显。
来自主题: AI技术研报
7643 点击 2024-07-27 19:22
用来运行 Llama 3 405B 优势明显。
大模型在今年的落地,除了对用 AI 对已有业务进行改造和提效外,算力和推理的优化,可能是另外一项重要的实践了。这在腾讯的两个完全不同的业务上有着明显的体现。
H100让模型推理性能最高跃升8倍!英伟达最新开源软件TensorRT-LLM,将彻底改变LLM推理现状。