标签:spider

网络爬虫系列-1

什么是网络爬虫?

网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。

网络爬虫通常用来做些什么?

百度蜘蛛,Google bot等等都是爬虫,可以作为搜索引擎的数据来源;也可以收集情报信息等等;偶尔,可以豆瓣图书当例子进行抓取。

进行我们就讲讲如何抓取豆瓣图书网页的标题[……]

Read more

{ Comments are closed }

个推push数据统计(爬虫)

该方案基于任务调度框架Gearman,采用Python开发的分布式数据统计系统。

项目的目录结构很简单:

# apple at localhost in ~/Develop/getui [11:24:26]
$ tree
.
├── Browser.py
├── Pickle[……]

Read more

{ Comments are closed }