AI资讯新闻榜单内容搜索-OCR

准确率腰斩！大模型视觉能力一出日常生活就「失灵」

我们习惯了AI在屏幕上侃侃而谈、生成美图，好像它无所不知。但假如把它“扔”进一个真实的手术室，让它用主刀医生的第一视角来判断下一步该用哪把钳子，这位“学霸”很可能当场懵圈。

来自主题: AI技术研报

9036 点击 2025-12-09 10:37

混元OCR模型核心技术揭秘：统一框架、真端到端

腾讯混元大模型团队正式发布并开源HunyuanOCR模型！这是一款商业级、开源且轻量（1B参数）的OCR专用视觉语言模型，模型采用原生ViT和轻量LLM结合的架构。目前，该模型在抱抱脸（Hugging Face）趋势榜排名前四，GitHub标星超过700，并在Day 0被vllm官方团队接入。

来自主题: AI技术研报

7737 点击 2025-11-29 13:43

金山与华科发布多模态模型MonkeyOCR v1.5：文档解析能力超越PaddleOCR-VL，复杂表格解析首次突破90%

是金山派来的猴子，复杂文档解析有救了！

来自主题: AI技术研报

10785 点击 2025-11-18 15:16

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

在处理短文本时，大语言模型（LLM）已经表现出惊人的理解和生成能力。但现实世界中的许多任务 —— 如长文档理解、复杂问答、检索增强生成（RAG）等 —— 都需要模型处理成千上万甚至几十万长度的上下文。

来自主题: AI技术研报

6552 点击 2025-11-10 15:12

两周复刻DeepSeek-OCR！两人小团队还原低token高压缩核心，换完解码器更实用

两人小团队，仅用两周就复刻了之前被硅谷夸疯的DeepSeek-OCR？？复刻版名叫DeepOCR，还原了原版低token高压缩的核心优势，还在关键任务上追上了原版的表现。完全开源，而且无需依赖大规模的算力集群，在两张H200上就能完成训练。

来自主题: AI资讯

8401 点击 2025-11-07 15:22

医疗AI独角兽Hippocratic AI拿下8亿融资，估值250亿，谷歌英伟达都投了

智东西11月4日消息，11月3日，美国生成式AI医疗独角兽Hippocratic AI宣布完成1.26亿美元（约合人民币8.97亿元）的C轮融资，谷歌母公司Alphabet旗下独立成长基金CapitalG参投。此轮融资也让该公司的估值达35亿美元（约合人民币249.24亿元），总融资额达到4.04亿美元（约合人民币28.77亿美元）。

来自主题: AI资讯

8066 点击 2025-11-05 11:54

最强开源0.9B级OCR模型！PaddleOCR-VL本地一键部署，私密性拉满【喂饭级教程】

前不久我写了一篇百度最新的OCR模型（PaddleOCR-VL）的文章反响还不错。

来自主题: AI技术研报

11127 点击 2025-11-05 10:28

内存直降50%，token需求少56%！用视觉方式处理长文本

在NeurIPS 2025论文中，来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是，这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报

8858 点击 2025-11-01 09:23

让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

DeepSeek-OCR这段时间非常火，但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”，而不是“跨设备跨后端”的通吃实现，因此无法直接在苹果设备上运行，对于Mac用户来说，在许多新模型诞生的第一时间，往往只能望“模”兴叹。

来自主题: AI技术研报

8278 点击 2025-10-29 17:10

超越英伟达Describe Anything！中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

近期，DeepSeek-OCR提出了“Vision as Context Compression”的新思路，然而它主要研究的是通过模型的OCR能力，用图片压缩文档。

来自主题: AI技术研报

8863 点击 2025-10-28 14:28