如何复制“无法复制、转换”的PDF文件

总有些时候，我们需要从一个pdf文件中拷贝点儿文字出来，尤其是在“写”论文的时候。但是有些pdf文件因为排版或加密等等多种原因导致无法复制其中的内容，pdf2word之类的工具对它也是无可奈何。这时候就需要点非常规手段来搞定这个看似不可能的任务。

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。—wiki上对于OCR的解释。

实现复制无法复制pdf文件的原理就是: 1, 将pdf变成特定格式的图片; 2, 利用OCR工具识别图片中的文字, 3, 完事儿

首先，要确认我们需要的工具已经安装好了。这里以MS Office2007为例：在开始菜单Microsoft Office分类->Microsoft Office工具下找到Microsoft Office Document Imaging，如果有这个程序那么就可以开整了，如果没有，请运行你的Office安装文件，选择“添加或删除功能”，在“Office工具”结点下选择“Microsoft Office Document Imaging”，安装即可。

然后，使用PDF Reader (Adobe Reader, Foxit Reader等)，选择“打印”，打印机选择“Microsoft Office Document Image Writer”，（如果原PDF文件面积较大，如报纸等，点击属性将页面设置的足够大即可），输出格式选择TIFF 超精细，反正尽量的精细，毕竟打印出来的文件咱还要用OCR识别的。一路完成即可。

最后，使用Microsoft Office Document Imaging打开刚才生成的tif文件，用光标选中需要复制的文字区块，然后选择“工具”->“使用OCR识别文本”。待进度条走完后，就可以选择复制或直接导入到word中了。

综上，该方法能解决绝大多数PDF无法复制的问题。

开发者 / 未分类 · 2011年 3月 21日

如何复制“无法复制、转换”的PDF文件

您可能还喜欢...

开发者 / 未分类 · 2011年 3月 21日

您可能还喜欢...

电影的分类

大端和小端

一定要争气