怎么识别图片/扫描文件的PDF文件中文字?

来源:岁月联盟 编辑:猪头三 时间:2010-11-12
问题:

图片/扫描文件形式的PDF文件,如何识别文字。

回答:

对于是图片做成的PDF(特别是扫描件做成的PDF)文件
推荐用下面软件转换
2.1 页数比较少的用 CAJviewer 7.0 (带OCR组件完整版) ,支持直接打开PDF文件,识别文字。
2.2 页数比较多的可以用 Readiris Corporate 12软件来进行识别 (需要安装亚洲语言包,不然不识别中文)
2.3 页数比较多的还可以用 ABBYY finereader 9或者9以上版本(有简体中文版)进行识别转换。
这个软件的识别率很高,转换出来的版面基本保持原样。
上面几个软件的识别率都还可以,不建议用什么OFFICE组件识别,太麻烦识别率也不高。