总有些时候,我们需要从一个pdf文件中拷贝点儿文字出来,尤其是在“写”论文的时候。但是有些pdf文件因为排版或加密等等多种原因导致无法复制其中的内容,pdf2word之类的工具对它也是无可奈何。这时候就需要点非常规手段来搞定这个看似不可能的任务。
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。—wiki上对于OCR的解释。
实现复制无法复制pdf文件的原理就是: 1, 将pdf变成特定格式的图片; 2, 利用OCR工具识别图片中的文字, 3, 完事儿
首先,要确认我们需要的工具已经安装好了。这里以MS Office2007为例:在开始菜单Microsoft Office分类->Microsoft Office工具下找到Microsoft Office Document Imaging,如果有这个程序那么就可以开整了,如果没有,请运行你的Office安装文件,选择“添加或删除功能”,在“Office工具”结点下选择“Microsoft Office Document Imaging”,安装即可。
然后,使用PDF Reader (Adobe Reader, Foxit Reader等),选择“打印”,打印机选择“Microsoft Office Document Image Writer”,(如果原PDF文件面积较大,如报纸等,点击属性将页面设置的足够大即可),输出格式选择TIFF 超精细,反正尽量的精细,毕竟打印出来的文件咱还要用OCR识别的。一路完成即可。
最后,使用Microsoft Office Document Imaging打开刚才生成的tif文件,用光标选中需要复制的文字区块,然后选择“工具”->“使用OCR识别文本”。待进度条走完后,就可以选择复制或直接导入到word中了。
综上,该方法能解决绝大多数PDF无法复制的问题。