智谱开源OCR!测完我把手机里的扫描软件都卸了......

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
智谱开源OCR!测完我把手机里的扫描软件都卸了......
7694点击    2026-02-12 11:30

OCR模型究竟能干什么?干得怎么样?


2025年末2026年年初,科技圈最卷的技术无疑就是——O!C!R!


智谱开源OCR!测完我把手机里的扫描软件都卸了......


这不,就在前两天,智谱也下场整活儿了,发布了自家的「GLM-OCR」开源模型~


别看参数就0.9B,在OmniDocBench V1.5榜单上可是一通乱杀。


拳打Gemini-3-Pro!脚踢GPT5.2!(开玩笑


在手写体、代码文档、印章识别、跨单元格等场景的性能表现直通SOTA:


智谱开源OCR!测完我把手机里的扫描软件都卸了......


这两天处于工作的原因,我也深度上手使用了GLM-OCR一番,这波用下来的感受是:


在日常基础文档解析场景里用起来确实爽爽爽!


but,涉及到字迹不清晰或复杂排版的信息时,翻车现象还是有的……


智谱开源OCR!测完我把手机里的扫描软件都卸了......


顺带,帮友友们浅浅总结了一下GLM-OCR日常帮咱干哪些活儿最合适,让大家少踩点坑:


  • 解析较为格式比较规整的Word/PPT/论文/教材表格


  • 解析不太抽象潦草的手写体、收据、代码、合同扫描件


  • 解析日常生活工作中的会议纪要、白板字迹等等。


不多说了,也把我的实测体验过程放上来,大家都帮着看看~~~


一手实测GLM-OCR


实测前先给大家伙捋捋一捋,GLM-OCR有哪些极夯的能力(官方版):


  • 通用文本识别:支持照片、截图、扫描件、文档输入,能够识别手写体、印章、代码等特殊文字。


  • 复杂表格解析:针对合并单元格、多层表头等复杂结构,模型能精准理解并直接输出HTML代码。


  • 信息结构化提取:支持从各类卡证、票据、表格中智能提取关键字段,并输出标准的JSON格式。


(顺带一提:GLM-OCR支持vLLM、SGLang和Ollama部署,还开源了完整SDK与推理工具链,能直接调用)


智谱开源OCR!测完我把手机里的扫描软件都卸了......


所以接下来,咱就直接围绕文本、表格、结构化提取三项核心能力实打实测一波!!!


通用文本识别能力


大家发现没。


无论是扫描王这类老牌工具,还是后来出现的各种解析产品,我们判断文本识别靠不靠谱,其实就看一件事——


能不能把文字1:1原样还原出来。


听起来很简单吧,但真做起来,难点主要卡在两件事上:


第一,复杂、抽象字体能不能认对,手写体、潦草笔记、特殊符号,中英文混写时能不能稳稳识别。


第二,不同输入形态下稳不稳,照片、截图、扫描件清晰度和噪点差异很大,能不能在各种输入形态下都保持准确,才是真本事。


智谱开源OCR!测完我把手机里的扫描软件都卸了......


我们先来测一个简单点的——


看看在普通纸质形态下,GLM-OCR对的「手写解析」能力表现咋样~


这次我喂给GLM-OCR的,是我手写的一道家长、老师、学生听了都要头皮一紧的潦草手写版「多步骤公式题」:


智谱开源OCR!测完我把手机里的扫描软件都卸了......


先来唠唠不错的地方。


在这张图片里,一共涉及60多个「汉字+数学公式」混排符号,GLM-OCR给出的整体识别准确率大约在96%左右。


放在手写场景里,这个表现已经算是不错了。


咱再来看看里面的翻车点。


不难看出,图片中一共出现了3处解析错误, 当笔画写得比较潦草时,模型把X识别成了=,把成立识别成了,另外不知道为啥还凭白无故多出来了一行公式……


为了验证是不是个例情况,我又把这张公式图原封不动丢给了ChatGPT-5.2,结果你猜怎么着:


智谱开源OCR!测完我把手机里的扫描软件都卸了......


翻车点几乎一模一样......


甚至更离谱的是GPT-5.2的错误率还略高于GLM-OCR,一共有4处解析错误……


其实也不算意外,毕竟潦草字迹一多,原本稳定的「笔画特征」就被打散了。


底层信息一模糊,模型自我纠错能力就容易跟不上…..


智谱开源OCR!测完我把手机里的扫描软件都卸了......


咱们再来试一个学生党和码农在生活工作中用的比较多的场景——「代码解析」


这次我喂GLM-OCR的,是一篇论文里符号密度拉满的代码信息,变量、括号、注释全挤在一起(地狱级难度):


智谱开源OCR!测完我把手机里的扫描软件都卸了......


效果当然没得说,符号、缩进、排版都近乎1:1的还原了,注释位置也基本都对,蛮厉害蛮厉害。


但最让我感到意外的是,它能判断出我喂给它的是代码,输出时也会自动切到代码模式。


对于咱日常拿来做代码阅读、资料整理、论文辅助完全够用了。


测到这里,总感觉文字形式多少有点过于简单了,于是乎,我又来试了一把牛马党工作中经常用到的「盖章识别」:


智谱开源OCR!测完我把手机里的扫描软件都卸了......


过关!印章里的关键信息大概齐都能识别到位,唯一缺点是把印章外的「XX增值税电子专用发票」也一并识别了。


智谱开源OCR!测完我把手机里的扫描软件都卸了......


最后,咱再来试试GLM-OCR在「低质量输入」下的模型稳定性表现。


看看模型面对糊图的表现会不会“糊”。(doge)


这回,我喂给模型的是一份分辨率偏低、且肉眼看都有点吃力的「高糊」文字:


智谱开源OCR!测完我把手机里的扫描软件都卸了......


大家仔细看会发现,原图片本身是发糊、边缘不清、对比度低的,单个字的特征并不完整。


蛮不错的是,模型除了把「标签」错误解析为「标普」外,其他文字还原的都没啥问题,值得夸夸~


(诶,突然感觉还挺适合咱还原一些包浆&陈年的截图内容的???)


复杂表格解析能力


「表格解析」也是大家日常学习、工作、生活中用得非常多的一个大!场!景!


像论文里的数据表、课程表、成绩单、实验数据、预算清单、对账表……不管是学生还是打工人,几乎天天都能碰到~


其实对于OCR模型来说,表格解析能力表现我们可以大致概括为以下几个方面:


  • 结构准确性:模型能否正确识别表格的整体布局,包括行/列划分、合并单元格、多级表头等等。


  • 单元格内容识别精度:尤其是数字对齐、日期格式、特殊字符(货币符号、百分号)、手写或低质扫描内容。


  • 端到端整体还原能力:从主要指的是对齐、格式保留(如粗体、斜体、颜色、字号等)。


这回我直接找个比较能考察这些维度的「复杂工作表格」进行实测:


智谱开源OCR!测完我把手机里的扫描软件都卸了......


emm...怎么说呢,感觉表格解析能力的毛病和优点都很明显。


在表格中涉及大量金额、正负数和重复数值的情况下,模型依旧把绝大多数字准确还原了出来,这一点放在财务类报表里,其实已经很难得。


但相比这些优点,更值得拿出来说的,还是它暴露出来的核心问题——


行列对齐出错了


模型把第一列的表头的「报表项目」直接吞掉了,以至于第一列整体发生错位,后面的行列关系也跟着一起乱了…


问题出现的原因,我猜可能是因为「报表项目」的表头在视觉上太像内容,不像结构。(doge


再加上它和下面货币资金、应收账款等文字,在字号、粗细、对齐方式上差别很小——


对模型而言可能缺少我是表头的明显信号???


智谱开源OCR!测完我把手机里的扫描软件都卸了......


感兴趣的朋友可以自己上手试试,看看有没有同类情况的问题,我还蛮好奇这是不是通病…


信息结构化提取能力


除了表格、手写文字外,还有一类信息解析场景大家会频繁接触到,那就是——结构化提取


例如在日常报销单、发票、证件识别等场景上,那就是有时候我们需要的往往是「字段结果」,而不是整页文字。


所以就需要有个能进行信息结构化的工具帮我们干这活儿。


据官方说法,GLM-OCR能从各类卡证、票据、表格中智能提取关键字段,并输出标准的JSON格式


不过这里有个小插曲,可能是因为我用的是在线测试版本,没找到提示词输入的入口,似乎需要在本地或部署环境下测试???(我猜)


所以,这部分我们直接参考一下官方给出的示例效果,以下为输入示例图:


智谱开源OCR!测完我把手机里的扫描软件都卸了......


在输入对应的提示词后,模型会根据指令要求,从表格中定向抽取指定字段,并将结果整理成结构清晰、字段明确的JSON输出:


智谱开源OCR!测完我把手机里的扫描软件都卸了......


果然,一旦把结构这件事交给提示词明确约束,模型在信息抽取上的稳定性会大幅提升啊…


OMT


2025年末2026年年初,国内OCR模型可以说是《一茬接一茬》地冒出来。


去年9月的时候,百度推出了支持5种文本类型识别的超轻量模型PP-OCRv5,主打低参数、快部署。


上个月,DeepSeek发布DeepSeek-OCR2,在语义理解和像素逻辑关联上进一步加强,更偏向复杂内容的整体理解能力。


再到刚刚智谱推出的GLM-OCR,直接把参数压进1B以内,同时在手写体、复杂表格等高难场景中刷到了SOTA。


智谱开源OCR!测完我把手机里的扫描软件都卸了......


咱也不难看出,随着OCR越来越热,各家厂商也慢慢卷出了一点相似的《门道》,譬如:


  • 越来越轻量级的参数:0.07B~0.9B大小的模型参数越来越多了,部署成本越来越低。


  • 模型输出效果提升:像公式、代码、印章、手写混排,甚至拍糊了扫歪了的文档,现在也能有不错的识别效果。


  • 速度更快,价格也更友好:OCR从解析到导出的整体耗时越来越短,API也越来越便宜了~


智谱开源OCR!测完我把手机里的扫描软件都卸了......


咱不提具体技术细节,单从这些实用的大趋势来说,对用户确实是好事儿,毕竟——


参数小意味着好部署。


输出稳,意味着咱返工次数就少。


便宜这事儿更甭提了,谁不喜欢薅羊毛呢。


(只要是好用、性价比高、好部署的模型,俺们用户就欢迎~)


哦对。


GLM-OCR链接我放在下面了,感兴趣的友友们可以用用试试~


GLM-OCR一箩筐链接:

[1]Github:https://github.com/zai-org/GLM-OCR

[2]Hugging Face:https://huggingface.co/zai-org/GLM-OCR

[3]在线体验链接:https://ocr.z.ai(懒人省力版)


文章来自于“量子位”,作者 “梦瑶”。

关键词: AI新闻 , GLM-OCR , AI OCR , 智谱
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0