前言
项目介绍
使用说明
查询
任务
其他
程序架构&核心源码
服务端
信息抓取模块
爬虫子模块
抓取策略
续做功能
第1页判断
数据解析子模块
请求处理模块
接收线程
工作线程池
请求处理(节选)
任务处理模块
数据访问层
职位类
用户类
会话类
查询结果类
任务类
抓取结果类
公共组件
查询表达式编译器
关键词编译器
表达式编译器
数据库管理类
SQL任务
线程池
客户端
后记
附录
查询表达式
通讯协议
Protobuf
联系方式
Published with GitBook
爬虫子模块
爬虫子模块
逻辑单纯用文字解释起来还是有点复杂的,还是先上流程图:
数据访问层
爬虫子模块
从数据访问层
得到数据
是
否
否
休眠结束
是
是
否
写入现场数据
完成
爬虫相关数据
初始化
有未完成作业?
继续上次
未完成的作业
调度器
第1页内容
发生变更?
距离上次抓取
超过一定时间?
局部抓取策略
完整抓取策略
进行抓取作业
休眠一段时间
整个爬虫子模块内容比较多,我就只讲一下自己觉得有亮点,值得一讲的部分好了,分别是:
抓取策略
中断续做功能
第1页判断
results matching "
"
No results matching "
"