
拿20年前的苹果“古董”笔记本跑模型推理:九分之一现代CPU速度,但成功了
拿20年前的苹果“古董”笔记本跑模型推理:九分之一现代CPU速度,但成功了众所周知,大语言模型(LLM)往往对硬件要求很高。
来自主题: AI资讯
2507 点击 2025-04-09 08:51
众所周知,大语言模型(LLM)往往对硬件要求很高。
还在为部署RAG系统的庞大体积和高性能门槛困扰吗?港大黄超教授团队最新推出的轻量级MiniRAG框架很好地解决了这一问题。通过优化架构设计,MiniRAG使得1.5B级别的小模型也能高效完成RAG任务,为端侧AI部署提供了更多可能性。
随着2024年生成式AI大爆发,推理端成本呈指数级激增,推动了泛智能硬件端持续增长,“端云混合AI部署”模式正走向主流,端侧智能则加速了终端“换机热潮”:AI PC、AI手机、AIoT设备、智能座舱。
基于公司私有组件生成代码,这个问题的本质是:由于大模型的训练数据集不包含你公司的私有组件数据,因此不能够生成符合公司私有组件库的代码。
2024年,落地,无疑是大模型最重要的主题。
最近一份美国市场研究机构发布的报告火了。报告详细分析了OpenAI部署Sora所需的硬件资源,计算得出,在峰值时期Sora需要高达72万张英伟达H100 来支持,对应成本是1561亿人民币。