DeepSeek-OCR这段时间非常火,但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”,而不是“跨设备跨后端”的通吃实现,因此无法直接在苹果设备上运行,对于Mac用户来说,在许多新模型诞生的第一时间,往往只能望“模”兴叹。得益于开源社区的探索,如今已有了可行路径,我在此基础上写了一个能让DeepSeek-OCR在Macos上跑起来的项目 DeepSeek-OCR_macOS。目前已开源,欢迎大家使用反馈。
https://github.com/xiumaoprompt/DeepSeek-OCR_macOS

DeepSeek-OCR_macOS 不仅仅是让模型能在Mac上“跑起来”,我希望提供的是一种“开箱即用”的、顺滑流畅的完整体验。
它是一个集成了以下特性的完整工作流:
setup.py自动化脚本。用户无需手动修改任何代码、处理复杂的路径问题或担心Python的导入错误,只需运行一个命令,脚本就会像一位贴心管家,引导你完成所有环境配置。项目把复杂的流程封装到了极致。你只需要跟随下面三个简单的步骤,就能在自己的Mac上运行起DeepSeek-OCR。
第一步:下载项目和模型
首先,你需要把项目代码和DeepSeek的官方模型克隆到本地。

# 1. 克隆项目
git clone https://github.com/xiumaoprompt/DeepSeek-OCR_macOS.git
cd DeepSeek-OCR_macOS
# 2. 克隆官方模型 (需要先安装 git-lfs)
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR
第二步:呼叫“管家” (运行自动化配置)
这是整个流程中最“神奇”的一步。运行我为你准备的setup.py脚本:
python setup.py

这位“管家”会启动一个交互式程序,一步步引导你:
DeepSeek-OCR文件夹拖进终端,它会自动获取并验证路径。你无需理解这背后的复杂原理,只需跟着提示按几下回车。
第三步:启动引擎!
当“管家”告诉你一切就绪后,你就可以安装依赖并启动Web UI了。
# 安装所有依赖
pip install -r pip-requirements.txt
# 启动Gradio应用
python -m macos_workflow.app

现在,打开浏览器,访问终端中显示的地址(如 http://127.0.0.1:7860),一个强大的本地OCR工具就在你面前了。

从“无法运行”到“顺畅使用”,此项目的核心主要解决了一个核心问题:设备不兼容。
modeling_deepseekocr.py这是整个移植工作的核心。在huggingface上的原始代码充满了device='cuda'这样的硬编码,并且使用了一些在macOS的MPS后端上支持不佳或效率低下的数据类型(如bfloat16)。
“手术”主要包括:

'cuda'设备指定,改为了一个从配置文件读取的、动态的device变量。这样,代码就能自动适应'mps'或'cpu'。torch.bfloat16)替换为更稳定、兼容性更广的torch.float32,确保模型能在不同硬件上稳定运行。Tensor(张量)在进行运算前,都被正确地移动到了用户指定的设备上,避免了“张量不在同一设备”的常见PyTorch错误。这个过程就像是把一个只习惯用右手写字的人,教会他如何用左手同样流利地书写。
这个项目源于一个简单的个人需求,但它最终演变成了一个遵循开源精神的完整解决方案。如果你也对这个项目感兴趣,欢迎加群一起讨论!
文章来自于“Al修猫Prompt”,作者“Al修猫Prompt”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0