① pdf文件在转化成WORD文档的时候,结果为乱码,如何解决
pdf转换出乱码的根本原因是文件的内码丢失了,需要用龙谷的 pdf内码校正 进行校正后就可以正常拷贝复制和另存成word或txt而没有乱码了。
② 有些pdf无法选中文字进行处理,该怎么解决
pdf文件中的文字可以是内码方式嵌入字库,这种方式能复制下来文字。还有一种双层pdf,显示的是点阵,但另外有内码层,仍然能从屏幕上复制文字,连书法作品都能实现这种双层。除了这两种,其他方式的文字就都不能复制文字了。
能放大显示文字不出锯齿的pdf文件,有两种情况不能复制文字。一种是非标准内码,复制过程能实现,但贴出来全是乱码。还有一种就是曲线化文字,所有文字都变成了矢量图,根本就不能按文字进行选择。矢量图的这种用ai打开是看得最明显的。
你遇到的情况,最大可能就是这种曲线化的文字。
③ PDF如何分类
不十分了解你所说的“分类”是从什么角度分类。
就PDF文件中的文字来说,我所知道的大致有这么几种类型:
文字内码类。这里面包括字库嵌入型和依赖本地字库型、标准内码型和非标准内码型。还有一种双层PDF,一般很少见到,就是以图形显示,但仍然能从屏幕上扫下来图形文字的内码。多用于书法作品。
曲线文字类。从非双层的文字内码类PDF文件转换而成,所有文字成为矢量图,从屏幕上不能复制文字。
点阵文字类。文字以点阵图方式显示。这样的PDF的特征就是文字不能任意放大,放大到一定程度就会出现明显的“锯齿”,而且也不能从屏幕上复制文字。而上面两类PDF中只有双层型的PDF是不能任意放大的。