19.3 构建一个简单的网络爬虫

Python初学者指南：构建简单网络爬虫

Python 教程

本教程详细讲解如何使用Python构建简单网络爬虫，从基础概念到实战代码，适合新手学习。包括requests和BeautifulSoup库的使用，以及提取网页数据的步骤。

构建一个简单的网络爬虫：Python初学者教程

介绍网络爬虫

网络爬虫（Web Crawler）是一种自动浏览网页并提取数据的程序。它可以帮助你从网站上收集信息，例如新闻、产品价格等。在Python中，我们可以使用一些库来轻松构建爬虫，无需深入了解复杂的技术。

准备工作

在开始之前，确保你已经安装了Python（推荐Python 3.x）。我们将使用两个主要的库：

requests: 用于发送HTTP请求，获取网页内容。
BeautifulSoup: 用于解析HTML，提取所需数据。

安装这些库：

pip install requests beautifulsoup4

步骤一：发送HTTP请求

首先，导入requests库并发送一个简单的GET请求来获取网页内容。我们将以一个示例网站为例，例如一个简单的新闻网站。

import requests

url = 'http://example.com'  # 替换成你想爬取的网页地址
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    print("网页获取成功！")
    html_content = response.text  # 获取网页的HTML内容
else:
    print(f"请求失败，状态码：{response.status_code}")

解释：这段代码向指定的URL发送请求，如果成功（状态码200），则打印网页内容。

步骤二：解析HTML

使用BeautifulSoup库来解析获取的HTML内容，并提取我们感兴趣的部分，比如标题或链接。

from bs4 import BeautifulSoup

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, 'html.parser')  # 'html.parser'是内置的解析器，简单好用

# 提取所有标题标签（h1, h2等）
titles = soup.find_all(['h1', 'h2', 'h3'])
for title in titles:
    print(title.text)  # 打印标题文本

解释：我们通过find_all方法找到所有标题标签，并打印出它们的文本内容。

步骤三：提取链接

爬虫通常需要提取链接，以便进一步爬取其他页面。让我们提取页面中的所有链接。

# 提取所有链接
tags = soup.find_all('a')  # 'a'标签通常包含链接
for tag in tags:
    link = tag.get('href')  # 获取href属性，即链接地址
    if link:
        print(link)

完整示例代码

下面是一个完整的简单网络爬虫代码，它获取网页并提取标题和链接：

import requests
from bs4 import BeautifulSoup

def simple_crawler(url):
    # 发送请求
    response = requests.get(url)
    if response.status_code != 200:
        print(f"请求失败：{response.status_code}")
        return
    
    # 解析HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取标题
    print("网页标题：")
    for title in soup.find_all(['h1', 'h2', 'h3']):
        print(title.text)
    
    # 提取链接
    print("\n页面链接：")
    for tag in soup.find_all('a'):
        link = tag.get('href')
        if link:
            print(link)

# 运行爬虫
if __name__ == "__main__":
    url = 'http://example.com'  # 替换成实际网址
    simple_crawler(url)

运行代码：将代码保存为crawler.py，然后在终端运行 python crawler.py。你会看到网页的标题和链接列表。

注意事项

遵守robots.txt：在爬取网站前，检查网站的robots.txt文件（例如 http://example.com/robots.txt），以了解允许爬取哪些页面。
设置延迟：避免对服务器造成负担，可以在请求之间添加延迟（例如使用time.sleep(1)）。
处理异常：实际应用中，添加错误处理（如try-except块）来应对网络问题。
尊重版权：仅爬取允许的数据，避免侵犯网站的使用条款。

扩展学习

如果你想深入学习，可以探索：

使用正则表达式来提取更复杂的数据。
爬取多个页面（递归爬虫）。
保存数据到文件（如CSV或JSON）。

总结：通过本教程，你已经学会了用Python构建一个简单的网络爬虫。继续练习，逐步提升你的技能！

上一章 19.2 解析HTML：BeautifulSoup 与 lxm

下一章 19.4 遵守规则：Robots协议与道德考量