前 言
互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问。但是,这些数据难以复用。它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用。从网页中抽取数据的过程又被称为网络爬虫。随着越来越多的信息被发布到网络上,网络爬虫也变得越来越有用。
目 录
[ 第1章 网络爬虫简介1.1 网络爬虫何时有用](https://yq.aliyun.com/articles/91817/)1.2 网络爬虫是否合法1.3 背景调研1.3.1 检查robots.txt1.3.2 检查网站地图1.3.3 估算网站大小1.3.4 识别网站所用技术1.3.5 寻找网站所有者1.4 编写第一个网络爬虫1.4.1 下载网页1.4.2 网站地图爬虫1.4.3 ID遍历爬虫1.4.4 链接爬虫1.5 本章小结[第2章 数据抓取2.1 分析网页](https://yq.aliyun.com/articles/91886/)2.2 三种网页抓取方法2.2.1 正则表达式2.2.2 Beautiful Soup2.2.3 Lxml2.2.4 性能对比2.2.5 结论2.2.6 为链接爬虫添加抓取回调2.3 本章小结第3章 下载缓存第4章 并发下载第5章 动态内容第6章 表单交互第7章 验证码处理第8章 Scrapy第9章 总结
相关资源:敏捷开发V1.0.pptx