标签归档:crawler

Link Extractors — Scrapy 0.24.4 documentation

Link Extractors

LinkExtractors are objects whose only purpose is to extract links from webpages (scrapy.http.Response objects) which will be eventual[……]

Read more

发表在 Uncategorized | 标签为 | Link Extractors — Scrapy 0.24.4 documentation已关闭评论

Scrapy爬虫教程之URL解析与递归爬取 – ian的个人博客

【说明】 本文转载自:http://www.icodelogic.com/?p=459

Scrapy爬虫教程之URL解析与递归爬取

前面介绍了Scrapy如何实现一个最简单的爬虫,但是这个Demo里只是对一个页面进行了抓取。在实际应用中,爬虫一个重要功能是”发现新页面”,然后递归的让爬取操作进行下去。

发现新页面的方法很简单,我们首先定义一个爬虫的入口[……]

Read more

发表在 Uncategorized | 标签为 , | Scrapy爬虫教程之URL解析与递归爬取 – ian的个人博客已关闭评论