该方案基于任务调度框架Gearman,采用Python开发的分布式数据统计系统。

项目的目录结构很简单:

# apple at localhost in ~/Develop/getui [11:24:26]
$ tree
.
├── Browser.py
├── PickleGearman.py
├── SpiderWorker.py
└── countPushNum.py

0 directories, 4 files

我们的Mac Pro Book,Gearman安装并启动:

 

Python需要安装Gearman、mechanize等库,(pip用于安装常用的包,具体安装见, https://pip.pypa.io/en/latest/installing.html#install-pip)

workder之间发送,接受Python对象。

 

运行图:

rp_081128418305134.png

8个Spider运行过程图:

个推push数据统计(爬虫)-attach

Spider代码:

 

countPushNum.py代码:

抓取模块代码: