scz:扫描版PDF的整书OCR简介

2025 年 08 月 26 日

611 次浏览

1261字数

只说最简操作，有很多设置可调整，此处略。

FineReader 16 使用指南

https://help.abbyy.com/zh-cn/finereader/16/user_guide/overviewfirstpage/

OCR编辑器

https://help.abbyy.com/zh-cn/finereader/16/user_guide/workwithocr/

用OCR编辑器打开扫描版PDF，识别->识别所有页面，文件->另存为->可搜索PDF文档。

仅就此类无脑傻瓜操作而言，ABBYY的OCR速率比Acrobat快，但生成的新PDF不如后者。若只想快速OCR后搜索关键字，推荐ABBYY。若想长期保存OCR结果，推荐Acrobat。

Umi-OCR目前有两种OCR引擎。主机性能强的，可用Paddle引擎版，追求兼容性的，建议用Rapid引擎版。

Umi-OCR涉及Python，执行后会出现"__pycache__"子目录。缺省有个HTTP服务，侦听127.0.0.1:1224/TCP，可在全局设置中关闭HTTP服务。

选中"批量文档"，打开扫描版PDF，点击"开始任务"。同样的测试样本，Umi-OCR比Acrobat、ABBYY吃CPU，Umi-OCR会风扇狂转，另两个没动静。Umi-OCR耗时可能是三者中最长的。Umi-OCR优点是开源、免费，另两个是商业软件，虽然破解版到处都是。

假设原文件是some.pdf，默认设置OCR后将在同目录下生成:

[OCR]_some_timestamp.layered.pdf

PDFXEdit的OCR结果十分不理想，汉字中间自动插入空格，若不知这种情况，搜关键字必将失败。并不推荐用PDFXEdit做OCR。

只是随便简介几种离线整书OCR，在线OCR不在此列。Umi-OCR，很傻瓜化，过去一直不知道，小白们可以用起来。