欢迎访问装备制造资讯网!

装备制造资讯网

您现在的位置是: 首页 > 制造技术 >详情

制造系统自动化技术pdf(用 Python 玩转 PDF,实现办公自动化)

发布时间:2024-03-26 09:09:03 制造技术 451次 作者:装备制造资讯网

1.相关介绍

Python操作PDF会用到两个库,分别是:PyPDF2和pdfplumber

制造系统自动化技术pdf(用 Python 玩转 PDF,实现办公自动化)

其中PyPDF2可以更好的读取、写入、分割、合并PDF文件,而pdfplumber可以更好的读取PDF文件中内容和提取PDF中的表格

对应的官网分别是:

PyPDF2:https://pythonhosted.org/PyPDF2/pdfplumber:https://github.com/jsvine/pdfplumber

由于这两个库都不是Python的标准库,所以在使用之前都需要单独安装

win+r后输入cmd打开command窗口,依次输入如下命令进行安装:

pipinstallPyPDF2pipinstallpdfplumber

安装完成后显示success则表示安装成功

2.批量拆分

将一个完整的PDF拆分成几个小的PDF,因为主要涉及到PDF整体的操作,所以本小节需要用到PyPDF2这个库

拆分的大概思路如下:

读取PDF的整体信息、总页数等遍历每一页内容,以每个step为间隔将PDF存成每一个小的文件块将小的文件块重新保存为新的PDF文件

需要注意的是,在拆分的过程中,可以手动设置间隔,例如:每5页保存成一个小的PDF文件

拆分的代码如下:

importosfromPyPDF2importPdfFileWriter,PdfFileReaderdefsplit_pdf(filename,filepath,save_dirpath,step=5):"""拆分PDF为多个小的PDF文件,@paramfilename:文件名@paramfilepath:文件路径@paramsave_dirpath:保存小的PDF的文件路径@paramstep:每step间隔的页面生成一个文件,例如step=5,表示0-4页、5-9页...为一个文件@return:"""ifnotos.path.exists(save_dirpath):os.mkdir(save_dirpath)pdf_reader=PdfFileReader(filepath)#读取每一页的数据pages=pdf_reader.getNumPages()forpageinrange(0,pages,step):pdf_writer=PdfFileWriter()#拆分pdf,每step页的拆分为一个文件forindexinrange(page,page+step):ifindex< pages: pdf_writer.addPage(pdf_reader.getPage(index)) # 保存拆分后的小文件 save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf') print(save_path) with open(save_path, "wb") as out: pdf_writer.write(out) print("文件已成功拆分,保存路径为:"+save_dirpath) split_pdf(filename, filepath, save_dirpath, step=5)

以“易方达中小盘混合型证券投资基金2020年中期报告”为例,整个PDF文件一共46页,每5页为间隔,最终生成了10个小的PDF文件

3.批量合并

比起拆分来,合并的思路更加简单:

确定要合并的文件顺序循环追加到一个文件块中保存成一个新的文件

对应的代码比较简单:

importosfromPyPDF2importPdfFileReader,PdfFileWriterdefconcat_pdf(filename,read_dirpath,save_filepath):"""合并多个PDF文件@paramfilename:文件名@paramread_dirpath:要合并的PDF目录@paramsave_filepath:合并后的PDF文件路径@return:"""pdf_writer=PdfFileWriter()#对文件名进行排序list_filename=os.listdir(read_dirpath)list_filename.sort(key=lambdax:int(x[:-4].replace(filename,"")))forfilenameinlist_filename:print(filename)filepath=os.path.join(read_dirpath,filename)#读取文件并获取文件的页数pdf_reader=PdfFileReader(filepath)pages=pdf_reader.getNumPages()#逐页添加forpageinrange(pages):pdf_writer.addPage(pdf_reader.getPage(page))#保存合并后的文件withopen(save_filepath,"wb")asout:pdf_writer.write(out)print("文件已成功合并,保存路径为:"+save_filepath)concat_pdf(filename,read_dirpath,save_filepath)4.提取文字内容

涉及到具体的PDF内容操作,本小节需要用到pdfplumber这个库

在进行文字提取的时候,主要用到extract_text这个函数

具体代码如下:

importosimportpdfplumberdefextract_text_info(filepath):"""提取PDF中的文字@paramfilepath:文件路径@return:"""withpdfplumber.open(filepath)aspdf:#获取第2页数据page=pdf.pages[1]print(page.extract_text())#提取文字内容extract_text_info(filepath)

可以看到,直接通过下标即可定位到相应的页码,从而通过extract_text函数提取该也的所有文字

而如果想要提取所有页的文字,只需要改成:

withpdfplumber.open(filepath)aspdf:#获取全部数据forpageinpdf.pagesprint(page.extract_text())

例如,提取“易方达中小盘混合型证券投资基金2020年中期报告”第一页的内容时,源文件是这样的:

运行代码后提取出来是这样的:

5.提取表格内容

同样的,本节是对具体内容的操作,所以也需要用到pdfplumber这个库

和提取文字十分类似的是,提取表格内容只是将extract_text函数换成了extract_table函数

对应的代码如下:

importosimportpandasaspdimportpdfplumberdefextract_table_info(filepath):"""提取PDF中的图表数据@paramfilepath:@return:"""withpdfplumber.open(filepath)aspdf:#获取第18页数据page=pdf.pages[17]#如果一页有一个表格,设置表格的第一行为表头,其余为数据table_info=page.extract_table()df_table=pd.DataFrame(table_info[1:],columns=table_info[0])df_table.to_csv('dmeo.csv',index=False,encoding='gbk')#提取表格内容extract_table_info(filepath)

上面代码可以获取到第18页的第一个表格内容,并且将其保存为csv文件存在本地

但是,如果说第18页有多个表格内容呢?

因为读取的表格会被存成二维数组,而多个二维数组就组成一个三维数组

遍历这个三位数组,就可以得到该页的每一个表格数据,对应的将extract_table函数改成extract_tables即可

具体代码如下:

#如果一页有多个表格,对应的数据是一个三维数组tables_info=page.extract_tables()forindexinrange(len(tables_info)):#设置表格的第一行为表头,其余为数据df_table=pd.DataFrame(tables_info[index][1:],columns=tables_info[index][0])print(df_table)#df_table.to_csv('dmeo.csv',index=False,encoding='gbk')

以“易方达中小盘混合型证券投资基金2020年中期报告”第xx页的第一个表格为例:

源文件中的表格是这样的:

提取并存入excel之后的表格是这样的:

6.提取图片内容

提取PDF中的图片和将PDF转存为图片是不一样的(下一小节),需要区分开。

提取图片:顾名思义,就是将内容中的图片都提取出来;

转存为图片:则是将每一页的PDF内容存成一页一页的图片,下一小节会详细说明

转存为图片中,需要用到一个模块叫fitz,fitz的最新版1.18.13,非最新版的在部分函数名称上存在差异,代码中会标记出来

使用fitz需要先安装PyMuPDF模块,安装方式如下:

pipinstallPyMuPDF

提取图片的整体逻辑如下:

使用fitz打开文档,获取文档详细数据遍历每一个元素,通过正则找到图片的索引位置使用Pixmap将索引对应的元素生成图片通过size函数过滤较小的图片

实现的具体代码如下:

importosimportreimportfitzdefextract_pic_info(filepath,pic_dirpath):"""提取PDF中的图片@paramfilepath:pdf文件路径@parampic_dirpath:要保存的图片目录路径@return:"""ifnotos.path.exists(pic_dirpath):os.makedirs(pic_dirpath)#使用正则表达式来查找图片check_XObject=r"/Type(?=*/XObject)"check_Image=r"/Subtype(?=*/Image)"img_count=0"""1.打开pdf,打印相关信息"""pdf_info=fitz.open(filepath)#1.16.8版本用法xref_len=doc._getXrefLength()#最新版本xref_len=pdf_info.xref_length()#打印PDF的信息print("文件名:{},页数:{},对象:{}".format(filepath,len(pdf_info),xref_len-1))"""2.遍历PDF中的对象,遇到是图像才进行下一步,不然就continue"""forindexinrange(1,xref_len):#1.16.8版本用法text=doc._getXrefString(index)#最新版本text=pdf_info.xref_object(index)is_XObject=re.search(check_XObject,text)is_Image=re.search(check_Image,text)#如果不是对象也不是图片,则不操作ifis_XObjectoris_Image:img_count+=1#根据索引生成图像pix=fitz.Pixmap(pdf_info,index)pic_filepath=os.path.join(pic_dirpath,'img_'+str(img_count)+'.png')"""pix.size可以反映像素多少,简单的色素块该值较低,可以通过设置一个阈值过滤。以阈值10000为例过滤"""#ifpix.size=5:#先转换CMYKpix=fitz.Pixmap(fitz.csRGB,pix)#存为PNGpix.writePNG(pic_filepath)#提取图片内容extract_pic_info(filepath,pic_dirpath)

以本节示例的“易方达中小盘混合型证券投资基金2020年中期报告”中的图片为例,代码运行后提取的图片如下:

这个结果和文档中的共1张图片的结果符合

7.转换为图片

转换为照片比较简单,就是将一页页的PDF转换为一张张的图片。大致过程如下:

安装pdf2image

首先需要安装对应的库,最新的pdf2image库版本应该是1.14.0

它的github地址为:https://github.com/Belval/pdf2image,感兴趣的可以自行了解

安装方式如下:

pipinstallpdf2image安装组件

对于不同的平台,需要安装相应的组件,这里以windows平台和mac平台为例:

Windows平台

对于windows用户需要安装popplerforWindows,安装链接是:http://blog.alivate.com.au/poppler-windows/

另外,还需要添加环境变量,将bin文件夹的路径添加到环境变量PATH中

注意这里配置之后需要重启一下电脑才会生效,不然会报错

Mac

对于mac用户,需要安装popplerforMac,具体可以参考这个链接:http://mac