Scrapy ── 用 Python 开发的数据挖掘自动化测试 Web 爬虫框架

google 发表于 2015-11-23 18:21:25

Scrapy ── 用 Python 开发的数据挖掘自动化测试 Web 爬虫框架

Scrapy ── 用 Python 开发的数据挖掘自动化测试 Web 爬虫框架

Scrapy 是基于 Twisted 异步处理框架，用 Python 开发的一个快速、高级屏幕和 Web 抓取框架，能抓取 Web 站点并从页面提取结构化数据。Scrach是抓取的意思，这个 Python 爬虫框架叫 Scrapy，大概也是这个意思。
Scrapy 是一个为遍历爬行网站、分析获取数据而设计的 Web 应用程序框架，它可应用的领域，包括：数据挖掘、信息处理、历史记录打包、监测、自动化测试等等。尽管 Scrapy 原本是设计用来抓取屏幕（更精确点说，是抓取网络）的，但 Scrapy 也可用来访问 API 提取数据，譬如：Amazon 的 AWS 或当作一般目的应用的网络蜘蛛。

Scrapy 吸引人的地方在于它是一个框架，任何人都可根据需求方便地修改。Scrapy 提供了多种类型爬虫基类，如 BaseSpider、sitemap 爬虫等，最新版本又提供了 Web2.0 爬虫的支持。
版权声明：
本文为独家原创稿件，版权归德云社区，未经许可不得转载；否则，将追究其法律责任。

页: [1]

德云社区's Archiver

Scrapy ── 用 Python 开发的数据挖掘 自动化测试 Web 爬虫框架

Scrapy ── 用 Python 开发的数据挖掘自动化测试 Web 爬虫框架