使用Pytesseract进行光学字符识别

2024.03.23 磐创AI

    概述
    本文，我们将使用计算机视觉技术从图像中提取文本。提取文本后，我们将在该文本上应用 OpenCV 的一些基本功能来增强它并获得更准确的结果。这个项目将非常有用，因为它可以节省从图像打字的时间和精力。
    范围
    · 对于将从图像中获取文本的大型组织而言，此应用程序可能会节省时间。
    · 它可以打开“无纸化文档”的世界，这也有助于升级存储。
    · 它还可以帮助自动化过程，因为它可以从图像本身中获取文本。
    我们将导入requests库以获取 git 文件和图像的 URL 。
    ＃import requests to install tesseract
    import requests
    注意：现在要下载 tesseract 文件，只需转到我将在函数中作为参数提供的链接，但我只是提供另一种下载 tesseract 文件的方法。
    ＃ Downloading tesseract－ocr file
    r ＝ requests．get（＂https：／／raw．githubusercontent．com／tesseract－ocr／tessdata／4．00／ind．traineddata＂， stream ＝ True）
    将数据写入文件以避免路径问题
    with open（＂ind．traineddata＂，＂wb＂） as file：
      for block in r．iter＿content（chunk＿size ＝ 1024）：
     if block：
     file．write（block）
    我们现在将下载Pytesseract 库运行所需的tesseract，并将文件保存在open（）函数的路径中。
    ！pip install pytesseract
    如果你想将其安装在笔记本中，此命令将安装 Pytesseract 模块
    Requirement already satisfied： pytesseract in c：programdataanaconda3libsite－packages （0．3．8）
    Requirement already satisfied： Pillow in c：programdataanaconda3libsite－packages （from pytesseract）（8．0．1）
    在这一步中，我们将安装 OCR 所需的库，我们还将导入 IPython 函数以清除不需要的函数。
    安装光学字符识别所需的库
    ！ apt install tesseract－ocr libtesseract－dev libmagickwand－dev
    导入 IPython 以清除不重要的输出
    from IPython．display import HTML， clear＿output
    clear＿output（）
    现在，我们将安装Pytesseract 和 OpenCV库，它们是我们文本识别的灵魂
    安装Pytesseract 和 OpenCV！
    pip install pytesseract wand opencv－python
    clear＿output（）
    导入所需的库
    ＃ Import libraries
    from PIL import Image
    import pytesseract
    import cv2
    import numpy as np
    from pytesseract import Output
    import re
    在这一步中，我们将打开一个图像调整其大小，然后再次保存以供进一步使用和可视化。
    从URL读取图像
    image ＝ Image．open（requests．get（＇https：／／i．stack．imgur．com／pbIdS．png＇， stream＝True）．raw）
    image ＝ image．resize（（300，150））
    image．save（＇sample．png＇）
    image
    输出：

    设置tesseract的路径
    pytesseract．pytesseract．tesseract＿cmd ＝ r＇C：Program FilesTesseract－OCRtesseract．exe＇
    注意：上面的命令将在系统配置中设置tesseract库的路径，如果路径没有根据系统配置设置，那么即使安装了tesseract也会抛出错误。
    在这里，我们将使用自定义配置从图像中提取文本。
    ＃ Simply extracting text from image
    custom＿config ＝ r＇－l eng －－oem 3 －－psm 6＇
    text ＝ pytesseract．image＿to＿string（image，config＝custom＿config）
    print（text）
    输出：

    在自定义配置中，你可以看到＊＊“eng”表示英语，即它会识别英文字母，你还可以添加多种语言，“PSM”表示页面分割＊＊，它设置了块如何识别字符，“OEM”是默认配置。
    现在，我们将通过用空字符串替换符号，从提取的文本中删除不需要的符号
    ＃ Extracting text from image and removing irrelevant symbols from characters
    try：
      text＝pytesseract．image＿to＿string（image，lang＝＂eng＂）
      characters＿to＿remove ＝＂！（）＠—＊“＞＋－／，＇｜?＃％＄＆＾＿～＂
      new＿string ＝ text
      for character in characters＿to＿remove：
      new＿string ＝ new＿string．replace（character，＂＂）
      print（new＿string）
    except IOError as e：
    输出：

    在下面的单元格中，我们将图像读入OpenCV格式以进一步处理。当我们需要从复杂图像中提取文本时，这是必需的。
    现在我们将执行OpenCV操作以从复杂图像中获取文本。
    image ＝ cv2．imread（＇sample．png＇）＃ will read in the array format
    输出：

    将图像转换为灰度图像，使其处理起来不那么复杂，因为它只有 0 和 1 两个值。这里我们使用cv2．cvtColor（）方法将彩色图像转换为灰度格式，而cv2．cvtColor 实际上可以帮助图像的 150 色转换。
    灰度图像
    def get＿grayscale（image）：
      return cv2．cvtColor（image， cv2．COLOR＿BGR2GRAY）
    gray ＝ get＿grayscale（image）
    Image．fromarray（gray）
    输出：

    现在我们将模糊图像，以便我们可以从图像中去除噪声。在这里，我们使用函数cv2．medianBlur（）函数以减少图像中的噪声＊＊，＊＊模糊基本上是通过应用相关平滑滤波器来平滑图像的技术，是图像处理中广泛使用的方法之一。
    降噪
    def remove＿noise（image）：
      return cv2．medianBlur（image，5）
    noise ＝ remove＿noise（gray）
    Image．fromarray（gray）
    输出：

    我们将在这里进行阈值变换。阈值适用于简单的概念，即当像素值低于给定的阈值时，颜色为白色，否则像素颜色正好相反，即黑色。使用的函数是cv2．threshold。
    阈值
    def thresholding（image）：
      ＃ source image， grayscale image
      return cv2．threshold（image， 0， 255， cv2．THRESH＿BINARY ＋
    cv2．THRESH＿OTSU）［1］
    thresh ＝ thresholding（gray）
    Image．fromarray（thresh）
    输出：

    这里我们正在做腐蚀变换。腐蚀变换是图像变换中最基本、最重要的步骤之一。腐蚀变换通常会拟合图像中缺失的形状和格子，这有助于在图像中稍微模糊或扭曲时识别字符。在这里，我们使用cv2 库中的erode（）函数进行腐蚀转换。
    腐蚀
    def erode（image）：
      kernel ＝ np．ones（（5，5），np．uint8）
      return cv2．erode（image， kernel， iterations ＝ 1）
    erode ＝ erode（gray）
    Image．fromarray（erode）
    输出：

    在这里，我们将执行形态变换。形态变换是最适合二值图像的技术之一，它根据图像的像素值对图像进行排序，而不是在考虑阈值的情况下对图像的数值进行排序。
    形态变换
    def opening（image）：
      kernel ＝ np．ones（（5，5），np．uint8）
      return cv2．morphologyEx（image， cv2．MORPH＿OPEN， kernel）
    opening ＝ opening（gray）
    Image．fromarray（opening）
    输出：

    在这里，我们试图匹配图像。当我们传递相同的图像进行匹配时，我们得到了99．99％的相似度。这里，模板匹配是一种在较大的图像中搜索和查找模板图像的位置的方法。对于模板匹配，我们使用cv2 库中的 match template（）函数。
    模板匹配
    def match＿template（image， template）：
     return cv2．matchTemplate（image， template， cv2．TM＿CCOEFF＿NORMED）
    match ＝ match＿template（gray， gray）
    match
    输出：
    array（［［1．］］， dtype＝float32）
    现在我们将通过在文本周围创建一个矩形来分隔文本中的每个字符。
    ＃ Drawing rectangle around text
    img ＝ cv2．imread（＇sample．png＇）
    h， w， c ＝ img．shape
    boxes ＝ pytesseract．image＿to＿boxes（img）
    for b in boxes．splitlines（）：
      b ＝ b．split（＇＇）
      img ＝ cv2．rectangle（img，（int（b［1］）， h － int（b［2］）），（int（b［3］）， h － int（b［4］）），（0， 255， 0）， 2）
    Image．fromarray（img）
    输出：

    最后，我们可以围绕特定的图案或单词绘制矩形。
    ＃ Drawing pattern on specific pattern or word
    img ＝ cv2．imread（＇sample．png＇）
    d ＝ pytesseract．image＿to＿data（img， output＿type＝Output．DICT）
    keys ＝ list（d．keys（））
    date＿pattern ＝＇artificially＇
    n＿boxes ＝ len（d［＇text＇］）
    for i in range（n＿boxes）：
      if float（d［＇conf＇］［i］）＞ 60：
      if re．match（date＿pattern， d［＇text＇］［i］）：
      （x， y， w， h）＝（d［＇left＇］［i］， d［＇top＇］［i］， d［＇width＇］［i］， d［＇height＇］［i］）
      img ＝ cv2．rectangle（img，（x， y），（x ＋ w， y ＋ h），（0， 255， 0）， 2）
    Image．fromarray（img）
    输出：

    结论
    我们从学习如何安装用于文本提取的 tesseract 开始。接下来，我们拍摄了一张图像并从该图像中提取了文本。我们了解到我们需要使用 OpenCV 的某些图像转换函数来从复杂图像中提取文本。
    尾注
    希望你们会喜欢这个使用 Pytesseract逐步学习光学字符识别的方法。