Python处理扫描的PDF文件：图像OCR处理+pytesseract安装+文字提取

见贤思齐 · 发表于 2024-9-7 10:44:38

背景有一些PDF资料，比较久远，是扫描出来的，需要文字版本如果只需要其中几个片段可以直接微信截图识别但是如果需要全本识别，人工的方式费时费力OCR（OpticalCharacterRecognition，光学字符识别），可以将图像中的文本信息提取出来，转换成计算机可处理的文本数据，为后续的分析和处理提供了便利。虚拟环境准备需要安装的库为：pipinstallpytesseractpipinstallfitzpipinstallopencv-pythonpipinstallPyMuPDFpipinstalltesseractpipinstallpillowpipinstallpyperclippipinstallplaywright12345678pytesseract设置其中，pytesseract的安装比较复杂，需要设置虚拟环境如果不设置，会遇到：pytesseract.pytesseract.TesseractNotFoundError:tesseractisnotinstalledorit'snotinyourPATH1假设已经成功运行了pipinstallpytesseract检查环境设置打开Python的外部库——site-packages——pytesseract——pytesseract.py发现文件中有一句（最开头）tesseract_cmd=‘tesseract’这里是没有指定路径的从网上找到相应的‘Tesseract-OCR’下载安装进入网站https://github.com/tesseract-ocr/tessdoc/blob/main/Installation.md找到对应系统文件，例如win亲测下载第二个即可自定义安装，不要改变路径（最好不要）注意，安装的时候要勾选所有的可安装内容，不然没有中文添加到环境变量的系统变量（PATH）系统搜索环境变量，打开7.新建一个系统变量增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径C:\ProgramFiles\Tesseract-OCR\tessdata这是将语言字库文件夹添加到变量中;7.打开终端，输入：tesseract-v，可以看到版本信息8.在pytesseract库下的pytesseract.py文件中（刚刚打开过），找到tesseract_cmd='tesseract'，1修改成tesseract_cmd=r'C:\Program

		自动登录	找回密码
密码			会员注册