AI资讯新闻榜单内容搜索-OCR

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: OCR
首个开源多模态Deep Research智能体,超越多个闭源方案

首个开源多模态Deep Research智能体,超越多个闭源方案

首个开源多模态Deep Research智能体,超越多个闭源方案

首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,通过全自动流程生成高质量推理轨迹,并用冷启动微调和强化学习优化决策,使模型在任务中能自主选择合适的工具组合和推理路径。

来自主题: AI资讯
5702 点击    2025-08-15 20:26
科研写作神器,超越Mathpix的科学公式提取工具已开源

科研写作神器,超越Mathpix的科学公式提取工具已开源

科研写作神器,超越Mathpix的科学公式提取工具已开源

LaTeX 公式的光学字符识别(OCR)是科学文献数字化与智能处理的基础环节,尽管该领域取得了一定进展,现有方法在真实科学文献处理时仍面临诸多挑战:

来自主题: AI技术研报
5244 点击    2025-08-06 12:56
5人团队,1700万融资,现金流为正,继Reducto获Benchmark 2450万投资后,文档处理赛道又迎来重量级玩家

5人团队,1700万融资,现金流为正,继Reducto获Benchmark 2450万投资后,文档处理赛道又迎来重量级玩家

5人团队,1700万融资,现金流为正,继Reducto获Benchmark 2450万投资后,文档处理赛道又迎来重量级玩家

你有没有想过,为什么在这个云计算和AI横行的时代,PDF文档处理依然是企业最大的痛点之一?想象一下这样的场景:一份包含数百页的贷款申请文档躺在银行系统里,等待人工审核,而申请人只能苦苦等待几天甚至几周才能知道结果。与此同时,医院里的医疗记录还在用打印机输出,然后手工传递给下一个医生。

来自主题: AI资讯
5585 点击    2025-07-01 11:03
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报
6678 点击    2025-05-30 17:30
超越 OCR:AI 如何为企业文档处理带来变革

超越 OCR:AI 如何为企业文档处理带来变革

超越 OCR:AI 如何为企业文档处理带来变革

长期以来,光学字符识别(OCR)技术一直是文档数字化的基石。然而,传统的实现方式在应对当今复杂多样的文档时却显得力不从心。在企业领域,文档的形式多种多样,包括扫描的合同、图像、带有嵌入式表格的电子邮件,甚至是手写笔记。基于模式识别和模板的系统无法跟上时代的步伐。一旦输入与预期的规范有所偏离,性能便会出现明显下降,暴露出其脆弱性。

来自主题: AI技术研报
7879 点击    2025-05-25 11:56
为什么大模型在 OCR 任务上表现不佳?

为什么大模型在 OCR 任务上表现不佳?

为什么大模型在 OCR 任务上表现不佳?

你是否曾经用最先进的大语言模型处理企业文档,却发现它把财务报表中的“$1,234.56”读成了“123456”?或者在处理医疗记录时,将“0.5mg”误读为“5mg”?对于依赖数据准确性的运营和采购团队来说,这些问题不仅影响工作效率,更可能导致财务损失、法律风险甚至造成医疗事故。

来自主题: AI技术研报
5994 点击    2025-03-28 10:25
千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷

千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷

千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷

法国大模型独角兽 Mistral AI 进军 OCR(光学字符识别)领域了。一出手就是号称「世界上最好的 OCR 模型」!新产品 Mistral OCR 是一种光学字符识别 API,它为文档理解树立了新标准。

来自主题: AI资讯
7018 点击    2025-03-07 14:51