随笔分类 - 搜索引擎-爬虫系统
socket通信+http1.1+bloom过滤器+多线程+mysql
    
摘要:转自:http://blog.sina.com.cn/s/blog_4b208fd90100v2pn.html网络爬虫爬取策略,注意爬虫爬取网站的频率网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分 start url(种子url)开始,按照一定的策略开始爬取,爬取到的新的url在放入到爬取队列之中,然后进行新一轮的爬取,直到抓取完毕为止。我们看一下crawler一般会遇到什么样的问题吧:量大:抓取的网页量很大更新:网页更新量也很大,一般的网站,比如
        阅读全文
            
摘要:1.Hash函数 Hash (中译为哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。Hash table(散列表,也叫哈希表),是根据哈希值(Key value)而直接进行访问的数据结构。也就是说,它通过把哈希值映射到表中一个位置来访问记录,以加快查找的速度。下面是一个典型的hash函数/表示意图:哈希函数有以下两个特点:如果两个散列值是不相同的(根据同一函数),那么这两个散列值的原始输入也是不相同的。散列函数的输入和输出不是唯一对应关系的,如果两个散列值相同,两个输入值很可.
        阅读全文
            
摘要:HTTP请求的GET方法可以用来抓取网页。 HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则,计算机专家设计出HTTP,使HTTP客户(如Web浏览器)能够从HTTP服务器(Web服务器)请求信息和服务,HTTP目前协议的版本是1.1。HTTP是一种无状态的协议,无状态是指Web浏览器和Web服务器之间不需要建立持久的连接,这意味着当一个客户端向服务器端发出请求,然后Web服务器返回响应(response),连接就被关闭了,在服务器端不保留连接的有关信息,HTTP遵循请求(Request)/应答(Response)模型。Web浏览器向Web.
        阅读全文
            
摘要:1.抓取内容搜索引擎基本框架有了,但是收录些什么内容才有意义呢,新闻和博客是我最初的两个想法,抓取新闻可以做一个类似百度新闻(http://news.baidu.com/)的平台,最后发现难度略大,加以感觉意义不大,遂无功而返。基于我平时搜索技术问题时对CSDN博客的内容比较信任甚至偏爱,最终选择抓取博客园、CSDN、月光博客等技术博客文章。2.如何抓全网页抓全是考核爬虫系统最重要的指标之一,如果网页都没收录,谈何查询,下面以博客园、CSDN、月光博客为例一一讲解。2.1博客园http://www.cnblogs.com(1)确定抓取博客园/编程语/cpp文章。种子urlhttp://www.
        阅读全文
            
摘要:需要包含以下基本功能:(1)网站下载流速控制(间隔抓取、频换代理抓取) 国内国外的搜索爬虫,科研机构爬虫数量很多,不同的站点抗抓取能力大相径庭,对网站的下载做好控制,避免将网站抓死。(2)网页抓全 (解析正确,抓取合理) 将互联网网页抓全,是极大的挑战,暗网暂且不提,就是明网抓全也不是容易的事情,新站发现,sitemap协议等用站长主动提交的支持等等。(3)网页抓新(统计更新周期实时抓取) 网页总在不断变化中,如何当网页变化后(更新,消亡)能够及时更新,实时性和死链率等是表征这方面工作的重要指标。(4)网页重复抓取的避免(bloom过滤器、set查重) 为了及时捕捉网页的更新,对同一个网...
        阅读全文
            
摘要:有些WEB服务器对于同一IP在一段时间内的访问次数是有限制的,即禁止爬虫频数抓取以影响访问体验。方法1:网络HTTP代理列表建立一个有效的HTTP代理列表,每次以其中的一个IP来访问一个站点,这样能很好的避免被服务器认定为爬虫程序。1.定义HTTP代理结构。建立一个长度为M的HTTP代理结构数组。结构struct SHttpProxy{char * m_cIP;int m_nPort,int m_nFailedNUM;};m_cIP为代理主机或IP,m_nPort为代理端口号,m_nFailedNUM访问失败次数,定义一个阈值H,如果m_nFailedNUM>H则认定该代理被禁用。2.定
        阅读全文
            
 
                    
                     
                    
                 
                    
                 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号