摘要
本公开涉及计算机技术、大模型技术、大语言模型技术、人工智能技术领域,具体涉及一种预训练模型服务的调用方法、装置、设备、介质及产品,该方法包括:获取端侧设备对应的模型边缘网关;当接收到端侧设备发起的模型服务调用请求时,若通过模型边缘网关查询到缓存服务器中存在与模型服务调用请求所匹配的预训练模型缓存信息,则将预训练模型缓存信息返回给端侧设备;否则,获取模型边缘网关所处的内网环境,将模型服务调用请求发送至内网环境的目标模型服务器,通过目标模型服务器返回与模型服务调用请求所匹配的目标模型服务。通过实施本技术方案,减少了调用时间,提升了端侧设备的应用响应速度,节省了模型服务的推理计算,优化了资源使用率。