《用Python写网络爬虫》——导读

xiaoxiao2023-12-19 171

前言

互联网包含了迄今为止最有用的数据集，并且大部分可以免费公开访问。但是，这些数据难以复用。它们被嵌入在网站的结构和样式当中，需要抽取出来才能使用。从网页中抽取数据的过程又被称为网络爬虫。随着越来越多的信息被发布到网络上，网络爬虫也变得越来越有用。

[ 第1章网络爬虫简介1.1 网络爬虫何时有用](https://yq.aliyun.com/articles/91817/)1.2 网络爬虫是否合法1.3 背景调研1.3.1 检查robots.txt1.3.2 检查网站地图1.3.3 估算网站大小1.3.4 识别网站所用技术1.3.5 寻找网站所有者1.4 编写第一个网络爬虫1.4.1 下载网页1.4.2 网站地图爬虫1.4.3 ID遍历爬虫1.4.4 链接爬虫1.5 本章小结[第2章数据抓取2.1 分析网页](https://yq.aliyun.com/articles/91886/)2.2 三种网页抓取方法2.2.1 正则表达式2.2.2 Beautiful Soup2.2.3 Lxml2.2.4 性能对比2.2.5 结论2.2.6 为链接爬虫添加抓取回调2.3 本章小结第3章下载缓存第4章并发下载第5章动态内容第6章表单交互第7章验证码处理第8章 Scrapy第9章总结

《用Python写网络爬虫》——导读

前 言

目 录

前言

目录