标签归档:scrapy

快速构建实时抓取集群 – NoSQLFan – 关注NoSQL相关技术、新闻

【说明】 本文转载自:http://blog.nosqlfan.com/html/2604.html

快速构建实时抓取集群 – NoSQLFan – 关注NoSQL相关技术、新闻

快速构建实时抓取集群

作者:nosqlfan on 星期六, 七月 30, 2011 · 评论本文 【[……]

Read more

发表在 Uncategorized | 标签为 | 快速构建实时抓取集群 – NoSQLFan – 关注NoSQL相关技术、新闻已关闭评论

Scrapy爬虫教程之URL解析与递归爬取 – ian的个人博客

【说明】 本文转载自:http://www.icodelogic.com/?p=459

Scrapy爬虫教程之URL解析与递归爬取

前面介绍了Scrapy如何实现一个最简单的爬虫,但是这个Demo里只是对一个页面进行了抓取。在实际应用中,爬虫一个重要功能是”发现新页面”,然后递归的让爬取操作进行下去。

发现新页面的方法很简单,我们首先定义一个爬虫的入口[……]

Read more

发表在 Uncategorized | 标签为 , | Scrapy爬虫教程之URL解析与递归爬取 – ian的个人博客已关闭评论