Beta阶段爬取数目预估

  预计于12月29号能进行Beta版本发布。

  Beta阶段我们的爬取动作应该更有针对性,在爬取期间如若数据处理小组有需求,会优先爬取数据处理小组提供的种子链接。预估在项目展示之前能够爬取的数目:

  普通网页(不包括问答页):50000,因为数据处理小组表示其他小组的主要需求是问答页和视频链接,所以相应减少普通网页的爬取动作。

  问答页:10万以上。

  视频:3万。按照在线小组的要求,主要是把channel9上的3W多个视频链接爬取下来即可。

  PDF:1000。

  PPT:100。

  DOC:100。

 

  PDF、PPT、DOC由于上学期疏忽于相应种子链接的获取,爬取的数目很少,现在的目标不敢定的太大,将会争取收集种子链接,以爬取更多相应的文件。

  

posted on 2015-12-24 16:31  爱码室  阅读(160)  评论(0编辑  收藏  举报

导航