今天我们来试试抓淘宝的商品,

网址:https://detail.tmall.com/item.htm?spm=a230r.1.14.1.vPuQzR&id=38214919782&cm_id=140105335569ed55e27b&abbucket=20&sku_properties=5919063:6536025

去掉一些没用的参数简化网址:https://detail.tmall.com/item.htm?id=38214919782&sku_properties=5919063:6536025

很多unix-like系统都要curl命令,curl可以用来下载网页,并且是个很强大的工具。

 

QQ20150827-1@2x

存截图中看出请求返回302,此时可用

网页内容保存在abc.html。

其实很多编程语言都要libcurl库的扩展,比如PHP的curl扩展,Python的pycurl模块等。

下面是用PHP的curl扩展实现了上面重定向内容的抓取。

今天讲到这里吧。