信息抓取模块

职位抓取模块

负责抓取腾讯招聘网的信息，整理后保存到数据访问层，供其他模块（用户请求处理程序，任务处理程序）使用。

其实就是所谓的网络爬虫。抓取的逻辑本身比较简单，关键是程序要足够好用，足够健壮。

重点考虑以下方面：

稳定性 ：就算抓取任务进行到一半，程序因为什么意外事件被打断退出，下次重新启动程序时能保证程序正常运转，能够继续上次被中断的任务，节约时间。拥有健壮的异常处理机制，应对各种意料外的情况。
效率：腾讯招聘网更新岗位信息有一定规律，用怎样的规则进行抓取效率比较高？
灵活性 ：毕竟数据的来源是网页，很难保证以后网页的结构会一直不变，如果网页结构发生变化抓取程序自然会失效。所以当网页结构发生变化时，有没有办法尽可能简单而又快速地完成程序的更新？

先讲下灵活性。

为保证程序足够灵活，在数据来源的结构发生变化时能尽可能简单地完成更新，我将解析页面的代码独立了出来，改成用脚本语言python实现。

因为C++程序的编译相对比较耗时，更新的成本比较大。而python是脚本语言，修改代码后直接就可以使用，十分方便。

而稳定性和效率的话就是要从优化调度程序上着手了，这是属于爬虫程序的范畴。

于是我把整个信息抓取模块分成两部分，分别是爬虫子模块和页面解析子模块，整体结构如下图：