一种包含复杂特征的PDF文本翻译方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种包含复杂特征的PDF文本翻译方法及系统
申请号:CN202510102590
申请日期:2025-01-22
公开号:CN120163169A
公开日期:2025-06-17
类型:发明专利
摘要
本发明属于文本翻译技术领域,提供一种包含复杂特征的PDF文本翻译方法及系统。所述方法包括:初始化PDF解析引擎,读取PDF文件并提取所述PDF文件的基本信息;判断所述PDF文件是否为复杂文档,记录复杂特征;对所述复杂文档中的图像进行预处理,并根据所述复杂特征调用相应的文本检测模型进行文本区域识别;提取所述文本区域中文本的布局信息,通过翻译模型对所述文本区域中的文本进行翻译,得到最终的翻译结果后根据所述布局信息进行排版,自定义输出目标译文文件。本发明能够智能识别PDF文档中的复杂内容,并在翻译过程中完整保留原始文档格式;同时支持多语言翻译,保证PDF文档翻译的准确性。
技术关键词
文本翻译方法 文本区域识别 文本检测模型 翻译模型 自定义输出 图文混排 文本翻译系统 文本翻译技术 非标准 布局 页面 排版 图片 表格 文本识别 图像增强 边缘检测 字体