什么是网络爬虫?

网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。

网络爬虫通常用来做些什么?

百度蜘蛛,Google bot等等都是爬虫,可以作为搜索引擎的数据来源;也可以收集情报信息等等;偶尔,可以豆瓣图书当例子进行抓取。

进行我们就讲讲如何抓取豆瓣图书网页的标题吧。

这个网址:http://book.douban.com/ 就是爬虫入口。

 

QQ20150826-2@2x

 

首先,把网页下载下,上面图片标红的地方是要抓取的,可以通过php的file_get_contents函数:

运行结果如下:

今天就讲到这里。