小心使用！从入门到精通，一文带你学会Python面向监狱爬虫

API (应用程序接口)是为了以标准的方式在不同的系统之间交换数据。但是，大多数时候，网站所有者并不提供任何 API。在这种情况下，我们只能使用 web 抓取提取数据了。

基本上，每个 web 页面都以 HTML 格式从服务器返回，这意味着我们的实际数据被很好地包装在 HTML 元素中。这使得检索特定数据的整个过程非常简单和直接。

本教程将是一个自始至终的指南，让你可以尽可能简单的使用 Python学习爬虫。首先，我将向你介绍一些基本的示例，让你熟悉 web 抓取。稍后，我们将使用这些知识从 Livescore.cz 中提取足球比赛的数据。

开始

为了让我们开始，你需要启动一个新的 Python3 项目，并安装 Scrapy (一个用于 Python 的 web 爬虫库)。我在本教程中使用了 pipenv，但是你也可以使用 pip 和 venv，或 conda。

pipenv install scrapy # Pipenv 安装 scrap

现在，你已经有了 Scrapy，但是你仍然需要创建一个新的 web 抓取项目，为此 Scrapy 提供了一个命令行，可以为我们完成这项工作。

现在，让我们使用 scrapy clii 创建一个名为 web _ scraper 的新项目。

如果你像我一样使用 pipenv，请使用：

pipenv run scrapy startproject web_scraper

或者在你自己的虚拟环境中，使用：

scrapy startproject web_scraper

这将在工作目录中创建一个基本项目，其结构如下:

站长网