AI资讯新闻榜单内容搜索-部署

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 部署
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

只用 1.5% 的内存预算,性能就能超越使用完整 KV cache 的模型,这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。

来自主题: AI技术研报
7401 点击    2025-09-15 08:33
Jina Code Embeddings: 为高质量代码搜索而生的0.5B/1.5B向量模型

Jina Code Embeddings: 为高质量代码搜索而生的0.5B/1.5B向量模型

Jina Code Embeddings: 为高质量代码搜索而生的0.5B/1.5B向量模型

我们今天正式开源 jina-code-embeddings,一套全新的代码向量模型。包含 0.5B 和 1.5B 两种参数规模,并同步推出了 1-4 bit 的 GGUF 量化版本,方便在各类端侧硬件上部署。

来自主题: AI技术研报
9924 点击    2025-09-11 16:01
弃坑Claude!亲测CodeBuddy Code:单人2小时,从0搭建部署电商推荐系统

弃坑Claude!亲测CodeBuddy Code:单人2小时,从0搭建部署电商推荐系统

弃坑Claude!亲测CodeBuddy Code:单人2小时,从0搭建部署电商推荐系统

作为一名有着8年全栈开发经验的技术人员,我最近接手了一个具有挑战性的项目:为某中型服装电商平台开发一套智能商品推荐系统。该系统需要在2个月内完成,包含以下核心功能:

来自主题: AI技术研报
9116 点击    2025-09-11 12:42
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!

Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!

Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!

全球最快的开源大模型来了——速度达到了每秒2000个tokens! 虽然只有320亿参数(32B),吞吐量却是超过典型GPU部署的10倍以上的那种。它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学(MBZUAI)和初创公司G42 AI合作推出的K2 Think。

来自主题: AI资讯
9484 点击    2025-09-10 23:15
波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻

波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻

波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻

刚刚,风头被中国机器人盖过的波士顿动力,又整了个大活!前后空翻我还能理解,这侧空翻?(不是哥们,你真会啊!)他们先在仿真环境中进行强化学习,一旦策略出现问题,那么他们就将其部署在真机上进行测试,观察问题,然后反复测试迭代,加强Spot的稳定性。

来自主题: AI资讯
7135 点击    2025-08-29 14:00
三个月、零基础手搓一块TPU,能推理能训练,还是开源的

三个月、零基础手搓一块TPU,能推理能训练,还是开源的

三个月、零基础手搓一块TPU,能推理能训练,还是开源的

对于计算任务负载来说,越是专用,效率就越高,谷歌的 TPU 就是其中的一个典型例子。它自 2015 年开始在谷歌数据中心部署后,已经发展到了第 7 代。目前的最新产品不仅使用了最先进的制程工艺打造,也在架构上充分考虑了对于机器学习推理任务的优化。TPU 的出现,促进了 Gemini 等大模型技术的进展。

来自主题: AI资讯
7996 点击    2025-08-25 12:23
AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

本文介绍使用四块Framework主板构建AI推理集群的完整过程,并对其在大语言模型推理任务中的性能表现进行了系统性评估。该集群基于AMD Ryzen AI Max+ 395处理器,采用mini ITX规格设计,可部署在10英寸标准机架中。

来自主题: AI技术研报
10498 点击    2025-08-25 09:51
AI应用开发商怨声载道:部署成本水涨船高

AI应用开发商怨声载道:部署成本水涨船高

AI应用开发商怨声载道:部署成本水涨船高

在本周MIT报告揭露“绝大多数企业投资AI尚未盈利”引发市场哗然之际,另一项出乎意料的现象也浮出水面:企业部署先进人工智能成本下降的趋势在2025年突然停滞。

来自主题: AI资讯
8374 点击    2025-08-23 12:07
KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架

KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架

KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架

在移动计算时代,将高效的自然语言处理模型部署到资源受限的边缘设备上面临巨大挑战。这些场景通常要求严格的隐私合规、实时响应能力和多任务处理功能。

来自主题: AI技术研报
7720 点击    2025-08-23 11:47
GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

在AI浪潮席卷全球的2025年,大语言模型(LLM)已从单纯的聊天工具演变为能规划、决策的智能体。但问题来了:这些智能体一旦部署,就如「冻结的冰块」,难以适应瞬息万变的世界。

来自主题: AI技术研报
7791 点击    2025-08-22 10:23