AI资讯新闻榜单内容搜索-OCR模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: OCR模型
刚刚,百度开源模型Unlimited OCR拿下全球第一!作者疑似DeepSeek出走大神

刚刚,百度开源模型Unlimited OCR拿下全球第一!作者疑似DeepSeek出走大神

刚刚,百度开源模型Unlimited OCR拿下全球第一!作者疑似DeepSeek出走大神

最新开源的Unlimited OCR,总参数3B,实际激活仅500M——放在大模型时代几乎是个零头。但就是这个小到离谱的模型,在OmniDocBench v1.5上拿下93.23%的综合分,v1.6更是达到93.92%,直接刷新了端到端SOTA。

来自主题: AI资讯
15462 点击    2026-06-22 20:06
PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5

PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5

PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5

大模型再强,也读不懂你公司那一柜子的合同、发票和扫描件。在"纸张世界"和"LLM世界"之间,缺一座桥——而百度开源的 PaddleOCR,可能就是当下最稳的那座。

来自主题: AI技术研报
7271 点击    2026-06-17 10:32
全球OCR新王来自中国开源!GitHub狂揽73300+Star

全球OCR新王来自中国开源!GitHub狂揽73300+Star

全球OCR新王来自中国开源!GitHub狂揽73300+Star

GitHub OCR项目之王刚刚历史性易主。

来自主题: AI技术研报
6887 点击    2026-03-31 10:29
混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

腾讯混元大模型团队正式发布并开源HunyuanOCR模型!这是一款商业级、开源且轻量(1B参数)的OCR专用视觉语言模型,模型采用原生ViT和轻量LLM结合的架构。目前,该模型在抱抱脸(Hugging Face)趋势榜排名前四,GitHub标星超过700,并在Day 0被vllm官方团队接入。

来自主题: AI技术研报
8649 点击    2025-11-29 13:43
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL)。

来自主题: AI资讯
11386 点击    2025-10-23 10:58
DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

刚刚,DeepSeek 推出了全新的视觉文本压缩模型 DeepSeek-OCR。 该模型最大的突破在于极高的压缩效率: 20 个节点每天可处理 3300 万页数据,硬件要求仅为 A100-40G。

来自主题: AI资讯
12756 点击    2025-10-20 16:30
千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷

千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷

千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷

法国大模型独角兽 Mistral AI 进军 OCR(光学字符识别)领域了。一出手就是号称「世界上最好的 OCR 模型」!新产品 Mistral OCR 是一种光学字符识别 API,它为文档理解树立了新标准。

来自主题: AI资讯
9394 点击    2025-03-07 14:51