爬虫第九课---scrapy中间件

xiaoxiao2022-07-07 202

''' scrapy中间件获取数据模拟请求 headers User-Agent ip地址 cookies 每次请求之前，要先添加cookies信息 scrapy 是会自动保存cookies信息 process_request 返回None scrapy继续处理这个Request 返回Response scrapy 直接返回这个Response 返回request scrapy 重新调度返回的Request请求返回异常在请求之前对requset进行处理 process_response 在请求之后对返回数据的response进行处理 ''' """ selenium库(自动化测试库)的使用下载浏览器驱动：http://chromedriver.storage.googleapis.com/index.html 下载对应的驱动器。 """

简单的代码实现：

中间件代码（middlewares.py）

from scrapy import signals from selenium import webdriver import time import scrapy ………………………… class SeleniumspiderDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not defined, # scrapy acts as if the downloader middleware does not modify the # passed objects. @classmethod def from_crawler(cls, crawler): # This meth

最新回复(0)