爬虫子模块

逻辑单纯用文字解释起来还是有点复杂的,还是先上流程图:

数据访问层
爬虫子模块
从数据访问层
得到数据
休眠结束
写入现场数据
完成
爬虫相关数据
初始化
有未完成作业?
继续上次
未完成的作业
调度器
第1页内容
发生变更?
距离上次抓取
超过一定时间?
局部抓取策略
完整抓取策略
进行抓取作业
休眠一段时间

整个爬虫子模块内容比较多,我就只讲一下自己觉得有亮点,值得一讲的部分好了,分别是:

  1. 抓取策略
  2. 中断续做功能
  3. 第1页判断

results matching ""

    No results matching ""