如何绕过Captcha并使用OCR技术抓取数据

背景/引言

在现代的网页数据抓取中，Captcha（全自动区分计算机和人类的图灵测试）作为一种防止爬虫和恶意访问的有效措施，广泛应用于各种网站。Captcha的主要目的是区分用户是人类还是程序，因此对于爬虫技术来说，它是一种极具挑战性的障碍。为了绕过Captcha，我们可以借助OCR（Optical Character Recognition，光学字符识别）技术，从图片中识别出字符，并结合代理IP技术提高爬虫的隐蔽性，减少被封禁的风险。本文将介绍如何使用OCR技术绕过Captcha，并通过示例展示如何实现这一过程。

正文

1. 绕过Captcha的常见方法

Captcha有很多种类型，包括但不限于文字验证码、滑动验证码、点击验证码和Google reCAPTCHA。针对这些类型，我们可以使用以下几种常见的绕过方法：

文字验证码：使用OCR技术识别验证码中的文字字符。
滑动验证码：使用自动化工具（如Selenium）模拟滑动操作，或者通过图像识别计算滑动距离。
点击验证码：使用图像识别技术定位点击区域。
Google reCAPTCHA：使用第三方服务（如2Captcha）进行破解。

本文主要讨论如何使用OCR技术识别文字验证码。

2. 使用OCR技术识别文字Captcha

OCR（光学字符识别）是一种从图像中提取文字的技术。当前主流的OCR工具包括Tesseract和百度OCR等。Tesseract是一个开源的OCR引擎，支持多种语言，并且易于集成到Python中。

步骤概述：

获取Captcha图片。
使用OCR识别图片中的文字。
通过代理IP抓取目标数据。

3. 实现代码

以下是具体实现代码，其中我们使用Tesseract OCR进行Captcha识别，并通过代理IP抓取数据。

环境要求：

Python 3.x
requests、pytesseract、Pillow、httpx、fake_useragent库

安装依赖：

pip install requests pytesseract pillow httpx fake_useragent

完整代码：

以大众点评为目标网站。大众点评使用了多种反爬虫措施，因此我们通过代理IP和OCR技术来尝试绕过文字Captcha，并抓取其部分公开数据（如商家信息等）。（需要注意的是，大众点评对爬虫行为检测较为严格，因此在使用时请务必遵循相关网站的使用规则和法律法规）

import requests
from PIL import Image
import pytesseract
from io import BytesIO
import httpx
from fake_useragent import UserAgent

# 配置 Tesseract OCR 路径（若安装路径不同，请自行修改）
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 亿牛云爬虫代理配置 www.16yun.cn
PROXY_HOST = "proxy.16yun.cn"
PROXY_PORT = "12345"
PROXY_USER = "your_username"
PROXY_PASS = "your_password"

# 构建代理URL
proxy_url = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"

# 构建请求头
ua = UserAgent()
headers = {
    "User-Agent": ua.random,  # 随机生成User-Agent
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Cookie": "your_cookie_here",  # 在此处替换为实际获取到的Cookie
}

# 下载Captcha图片
def download_captcha(captcha_url):
    try:
        response = requests.get(captcha_url, headers=headers, proxies={"http": proxy_url, "https": proxy_url}, timeout=10)
        if response.status_code == 200:
            return Image.open(BytesIO(response.content))
        else:
            print(f"下载Captcha失败，状态码: {response.status_code}")
            return None
    except Exception as e:
        print(f"下载Captcha时发生错误: {e}")
        return None

# 使用OCR识别Captcha
def ocr_captcha(image):
    try:
        captcha_text = pytesseract.image_to_string(image, lang='eng').strip()
        print(f"OCR识别结果: {captcha_text}")
        return captcha_text
    except Exception as e:
        print(f"OCR识别时发生错误: {e}")
        return ""

# 抓取大众点评的商家信息
def fetch_dianping_data(city_url):
    try:
        # 使用httpx进行请求
        with httpx.Client(proxies={"http://": proxy_url, "https://": proxy_url}, headers=headers) as client:
            response = client.get(city_url)
            if response.status_code == 200:
                print("数据抓取成功！")
                print(response.text[:500])  # 打印部分抓取的数据
            else:
                print(f"数据抓取失败，状态码: {response.status_code}")
    except Exception as e:
        print(f"抓取数据时发生错误: {e}")

# 示例调用
# 大众点评Captcha页面的URL示例（可根据实际需求调整）
captcha_url = "https://www.dianping.com/captcha"  # 示例地址，需替换为实际Captcha地址
# 大众点评商家列表页面的URL（以北京美食为例）
city_url = "https://www.dianping.com/beijing/food"  # 可以修改为不同城市和类别的URL

# 尝试直接访问商家列表页面，如果遇到Captcha则需要处理
fetch_dianping_data(city_url)

代码解析

Captcha下载与OCR识别：
- download_captcha函数用于下载Captcha图片，并使用Pillow库进行处理。
- ocr_captcha函数利用Tesseract OCR对下载的Captcha图片进行文字识别。
代理IP配置：
- 使用爬虫代理的域名、端口、用户名和密码进行代理设置，构建代理URL。
User-Agent与请求头设置：
- 使用fake_useragent库生成随机User-Agent，避免被服务器检测为爬虫。
数据抓取与结果处理：
- 通过httpx库发送带有Captcha识别结果的POST请求，抓取目标页面的数据。

实例

假设我们要抓取一个需要输入文字Captcha的网站，Captcha的URL为https://example.com/captcha，目标页面的URL为https://example.com/target。通过上述代码，我们可以自动识别Captcha并抓取数据。

结论

Captcha是网站对抗自动化爬虫的常见手段，但通过使用OCR技术，我们可以在一定程度上绕过文字类型的Captcha，并成功抓取数据。本文介绍了使用Tesseract OCR进行Captcha识别，并结合代理IP技术，提升了爬虫的隐蔽性和稳定性。然而，需要注意的是，OCR的准确性会受到Captcha图片质量和复杂度的影响，较为复杂的Captcha可能需要更高级的图像处理和识别技术。此外，绕过Captcha可能涉及法律和道德问题，使用时应遵循相关网站的使用规则，并用于合法场景。

亿牛云爬虫专家