本节书摘来自异步社区《用Python写网络爬虫》一书中的第1章,第1.5节,作者 [澳]Richard Lawson(理查德 劳森),李斌 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。
本章介绍了网络爬虫,然后开发了一个能够在后续章节中复用的成熟爬虫。此外,我们还介绍了一些外部工具和模块的使用方法,用于了解网站、用户代理、网站地图、爬取延时以及各种爬取策略。
下一章中,我们将讨论如何从已爬取到的网页中获取数据。