摘要: 百度搜索网站登录口:http://www.baidu.com/search/url_submit.htmlGoogle网站登录口:http://www.google.com/addurl/?hl=zh-CN&continue=/addurlGoogle新闻网站内容http://www.google.com/support/news_pub/bin/request.py?contact_type=suggest_content&hl=cn搜狗网站收录提交入口:http://www.sogou.com/feedback/urlfeedback.phpSOSO搜搜网站收录提交入口:h 阅读全文
posted @ 2014-03-09 23:01 山顶的鱼 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 写在最前面:之前看过一些关于暗网信息抓取的Paper,觉得这一块是我们今后做好WebSpider的一个重要的努力方向。下面就对暗网信息的抓取做一个通俗简洁的介绍,达到使一般读者能够明白暗网信息抓取基本原理的目的。 1.什么是暗网 广义地讲,任何不能通过一次(或多次)HTTP GET请求直接下载的Web页面,我们都可以认为其处于“暗网”中。不能直接通过HTTP GET请求下载这些Web页面的原因是多方面的,有可能是网络原因不能下载,比如说企业或学校的内部网站,只有通过代理服务器连通这些网络,才能下载其中的Web页面;也有可能是动态页面,需要用户身份认证,登录后才能下载等,还有其它一些原因... 阅读全文
posted @ 2014-03-09 19:59 山顶的鱼 阅读(585) 评论(0) 推荐(0) 编辑