让你的PDF更容易阅读
本文最后更新于:2022年4月18日 下午
让你的PDF更容易阅读
许多人有“无纸化学习”的习惯,PDF版本的教材是其中十分重要的一环。然而,通过各种渠道找到的PDF版教材通常不怎么清晰,属于“能看,只能看一点点”的程度,一些背景不干净的PDF在电子墨水屏上看更是惨不忍睹。本文致力于对电子书做一些简单的图像处理以提高阅读体验。
1.原理
本文中要处理的电子书特指扫描版PDF,一方面是因为这种类型的教材数量最多,而且文字版教材阅读方面可能存在的的主要问题是排版而不是文字。PDF文档格式简单来说是一种类似json的资源描述格式,它以每页为单位链接了若干对象,然后将对象的字节码或者二进制码直接插入其中(两种都支持,因此有的PDF用文本编辑器打开能看懂,有的就是乱码)。对于扫描PDF来说,它只是一堆图像的集合,不会有复杂的后处理和计算,因此可以通过直接处理其中的图像来达到目的。具体来说,处理过程分为拆分图片、处理图片、合并图片三部分。
对数字图像的任何处理都会造成其中包含总信息的损失,但是其中大部分是我们不需要的低频信息,使人能够认出来文字的信息多属于高频信息。可以通过一些图像变换牺牲掉一些无关紧要的低频信息来换取高频信息的加强。这也就是为什么有时候更清晰的图像可以反而体积更小
2.第一步:拆分
科普几个图像格式,jpeg
是有损压缩,目前在所有平台支持最好;png
比jpg
多一个透明图层,一般电脑截图是这种格式,但我们的PDF显然不含有透明图层,因此这种格式我们不采用;tiff
是一个打包,它可以存储多种数据和标签,包括24位无压缩数据,因此我们将PDF拆分为图像时采用此格式,以便造保存所有信息方便后续处理得到质量更高的图像。格式灵活和丰富的缺点就是不实在所有设备上都支持得很好,因此各大PDF合并软件都默认对tiff
格式图像合并时做一次格式转换,这一点后面会提到。
以Adobe Acrobat为例,如图所示导出图像。注意可以先在设置中设置导出质量为最高。另外,导出会有几百张图片,所以选择目录时请不要直接选择桌面,资源管理器会卡死。
3.第二步:处理
以Affinity Photo为例,其他P图软件也可以,步骤不会差太多。
处理为白纸黑字
我随便找了张图片,色彩不是很均衡,按照箭头解锁图像然后将其处理为黑白。模式选择“正常”,这样将有底色的图像处理为纯黑白。
调整曲线
还是点击这个黑白半圆选择处理类型,选择曲线。这个曲线是反映像素灰度数值(0-255)在全部像素中占比的二维曲线,图中红色的一条斜线代表不做变换,如图将左边向下拽、右边向上拽,代表将亮度小于一定数值的全部调整为纯黑,高于一定数值的全部调整为纯白。此操作可以提高图像对比度,并且让底色更白(对于比较干净的底色一般可以轻松调整至纯白)。注意曲线不要拉太多,拉太多会导致字边缘变成锯齿,字也会很细,读起来很费劲。
线性加深
和上上步相同的步骤,选择黑白调整,此时在弹出来的面板中选择“线性加深”。此操作同样是灰度映射,它将灰度做一次线性映射,原本很黑的地方会变深很多,原本很白的地方变化很小。这非常适合处理扫描书籍。
可以看到现在已经获得了很清晰的字,如果有需要的话可以多次调整曲线和线性加深,直到文字清晰背景干净且保证书中插图不会黑成一团。
接下来导出图片,有多种格式可以选择。此处不建议选择tiff
,如前文所述这种格式虽然可以保证绝对清晰却不能保证可以显示。事实上如果非要使用tiff
格式也是可以的,在Acrobat中手动一张一张插入图片不会做格式转换而是直接复制对象。但这种处理方式得到的PDF在除了Acrobat之外的其他任何阅读器中打开都只会显示空白页面。因此导出时最好选择最高清晰度jpeg
格式。这样得到的图片体积大概会缩小$\frac{2}{3}$,清晰度下降不大。
批量操作
以上每一步操作可以录制为一个宏(操作脚本),应用于你一个批处理中所有的文件。按1箭头所指的按钮可以开始录制,你的操作结束后按2所指的按钮,然后按3所指的按钮将其保存为一个宏。
如图新建一个批处理,选中你刚刚导出的所有图片,应用宏即可。很快就会完成任务。
4.第三步:合并
Adobe Acrobat就有合并图片功能,直接合并即可。实测Mac上的Acrobat有BUG,在较大的文件合并时会直接卡死,大工程请用Windows或者换用其他软件。
这里提一个很好的命令行合并软件img2pdf,使用python环境下的pip可以直接安装,安装好后直接命令行运行。此软件可以以高质量快速合并图片为PDF。此软件不支持我的ARM架构Mac。
经过一系列操作,你的PDF已经变得通透清晰了。Enjoy your reading.
本博客所有文章除特别声明外均为原创,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!