只说最简操作,有很多设置可调整,此处略。
- Adobe Acrobat XI Pro
打开扫描版PDF,工具->文本识别->在本文件中,可以调整一些OCR设置。 - ABBYY FineReader
参看
FineReader 16 使用指南
https://help.abbyy.com/zh-cn/finereader/16/user_guide/overviewfirstpage/
OCR编辑器
https://help.abbyy.com/zh-cn/finereader/16/user_guide/workwithocr/
用OCR编辑器打开扫描版PDF,识别->识别所有页面,文件->另存为->可搜索PDF文档。
仅就此类无脑傻瓜操作而言,ABBYY的OCR速率比Acrobat快,但生成的新PDF不如后者。若只想快速OCR后搜索关键字,推荐ABBYY。若想长期保存OCR结果,推荐Acrobat。
Umi-OCR目前有两种OCR引擎。主机性能强的,可用Paddle引擎版,追求兼容性的,建议用Rapid引擎版。
Umi-OCR涉及Python,执行后会出现"__pycache__"子目录。缺省有个HTTP服务,侦听127.0.0.1:1224/TCP,可在全局设置中关闭HTTP服务。
选中"批量文档",打开扫描版PDF,点击"开始任务"。同样的测试样本,Umi-OCR比Acrobat、ABBYY吃CPU,Umi-OCR会风扇狂转,另两个没动静。Umi-OCR耗时可能是三者中最长的。Umi-OCR优点是开源、免费,另两个是商业软件,虽然破解版到处都是。
假设原文件是some.pdf,默认设置OCR后将在同目录下生成:
[OCR]_some_timestamp.layered.pdf
PDF-XChange Editor Plus (PDFXEdit)
以"PDFXEdit 10"为例。参看https://help.pdf-xchange.com/pdfxe10c/
编辑
首选项文字识别 添加/更新语言 (增加简体中文、英文支持,删除其他不需要的语言)
文档
识别页面 (即OCR)根据需要调整设置
增强扫描的页面
文本识别 (勾中)
PDFXEdit的OCR结果十分不理想,汉字中间自动插入空格,若不知这种情况,搜关键字必将失败。并不推荐用PDFXEdit做OCR。
只是随便简介几种离线整书OCR,在线OCR不在此列。Umi-OCR,很傻瓜化,过去一直不知道,小白们可以用起来。