项目经验：scrapy搭建定制化资讯服务

xiaoxiao2022-07-02 292

一、简介

平常我们查看新闻、资讯都是通过相关软件获取的，有时候推送给我们的新闻、资讯并不是我们所要关注的，特别是对做投资的人来说，每天需要关注的信息量很大，国家政策、市场信息、监管新闻、央行动作等等，当然如果一个个网站去打开当然可以实现目的，但是随着关注面越来越广，这个过程既费时又不一定满足需求，笔者之前看李笑来老师的文章中提到，笑来老师很久之前就实现资讯定制化功能了，就是把自己需要关注的信息、网站通过爬虫维护起来，每天一打开电脑，这些信息通过爬虫自动完成收集工作，我们要做的就是基于某些个别信息深入查看下，基于这个思路，笔者尝试做一个爬取政府网（www.gov.cn）上政策栏目下面的信息，其他网站也类似。

二、环境准备

本项目所有的代码都已经存放到github上了，感兴趣的读者可以到github上获取。

这里我们选择的python环境下的scrapy框架，通过pip install scrapy安装scrapy，然后在pycharm命令行中创建资讯项目info_crawler，如下：

在项目的spiders目录下我们需要建立一个资讯爬取的主程序info_spider.py，主要定义爬取的网站和需要抓取的数据，文件内容如下：需要注意的是name和response.css和response.xpath这几个关键地方，name在启动的时候需要指定正确，否则会找不到相应爬虫，response.css和response.xpath是从网站中去获取所需要的数据。通过政府网的观察，我们可以看到在政策专栏下面，所有的政策资讯都在ul标签下，每个资讯对应一个li，所以通过css选择器，我们先选择class='h120’的ul，然后再遍历其下的li元素，最终通过text获取li中的内容。

在settings.py文件同目录下创建main.py文件，我们可以通过这个文件调用scrapy程序执行，而不用通过命令行去实现。命令行下执行是这样的：scrapy runspider xxx_spider.py -o xxx.json，如果通过main.py文件来实现，只要把相关参数存放进去就可以了，具体内容如下：第3个参数就是刚才在info_spider.py定义的name。

配置数据存储文件，我们通过爬虫抓取到的数据最终是持久化到本地的，也就是说要找个地方把数据保存下来，一般就是写入数据库或者文件，笔者这里是采用文件的方式，所以需要在pipelines.py文件中配置相应的信息，代码如下：

配置settings.py，跟scrapy相关的所有配置几乎都可以在settings.py中配置，我们这里主要配置两个参数。 5.1 DEFAULT_REQUEST_HEADERS：头文件，因为有的时候我们爬取网站的信息要像浏览器发送请求一样，才能获取到我们需要的信息，我们这里的操作只要打开相应的注释就可以了。 5.2 ITEM_PIPELINES：刚才在pipelines.py文件中我们配置了数据的保存方式，接下来我们需要在settings.py文件中打开这个开关才能生效，最终配置的效果如下：

执行main.py文件，上面的文件配置好之后，右键执行爬虫程序，如下：控制台输出的信息如下：执行完之后，我们可以看到在同目录下生成一个info_file.json文件里面保存的内容如下，跟政府网上政策栏目下七条资讯刚好对应：

三、遗留问题

20190522：重定向问题，像政府网没有重定向问题，我们可以抓取到其网页内容，但是像央行、证监会网站存在大量的重定向，这个时候通过scrapy爬取不到网页信息？（可以通过requests.get(url).text查看网页爬取的内容。）

参考文献 1.Github代码库 2.scrapy官网 3.Scrapy爬虫入门教程一安装和基本使用 4.Python爬虫学习8-css选择器使用 5.Python爬虫（17）在Windows中安装及使用Scrapy 6.python爬虫：scrapy框架xpath和css选择器语法

最新回复(0)