个人对爬虫框架的一些认知(一)

    xiaoxiao2022-07-05  152

         首先从任务的发起开始,我们画一个简单的流程图:

    爬虫运行简要示意图

     

           一个优秀的爬虫框架,应当是要有个好的监控和异常处理记录,以及各爬虫运行在上面地方的一个简要记录信息。

    以企查查站点为例,一个爬虫的整体分层架构入下图所示:

    企查查爬虫框架图

           每个爬虫以一个单独的文件目录存在,下一级分4层文件目录,Mark记录该爬虫的说明信息,怎么抓取的,有什么防御和需要注意的地方,Model放置该爬虫需要用到的Model类,Resource模块下面放置该爬虫需要用到的资源性文件,Task为爬虫产生任务源的地方,任务源怎么产生根据任务需求来;再往下就是该爬虫的抓取逻辑类了,与4层文件目录评级,爬虫的抓取行为从该逻辑类的Start方法开启抓取之旅啦。

    这期就讲到这里,预知后续相关技术,请持续关注哈。有什么好的意见和建议可以给我留言。

    个人对爬虫框架的一些认知(二)

    最新回复(0)