情不知所起,一往而深

Pianoboy在他的部落格上有这么句话：我从很久以前，就痛恨自己只是因为怕失败，就不敢去做一件你想做，或你认为该做的事，做一件不一样的事，走在别人没有走的轨道上，就像走在一片原始丛林里，没有人帮你开道，没有人告诉你方向，你必须自己决定，然後承担後果，这确实是一件充满变数的冒险之旅。在这过程中，你可能会跌倒，可能会迷失，可能会失败，更可能会犯错。虽然未来一切充满未知，但一旦你认为是对的事，就应该要继续走下去！。

网络爬虫入门系列（一） (纯定义，可跳过不看)

      网络爬虫入门系列(一)

    1.什么是网络爬虫
   百度百科的说法是是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本
   通俗的说法是：将网络中的信息下载下来，然后进行一定的处理以得到你想要的信息。

   2.网络爬虫的爬行策略
   1) 深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。这种策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
    2) 广度优先策略：此策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点，不足之处在于需较长时间才能爬行到目录层次较深的页面


   3.java 中的网络爬虫基本手段
        请看下一篇

posted @ 2018-03-14 10:49 情不知所起一往而深阅读(222) 评论(0) 收藏举报

刷新页面返回顶部

情不知所起,一往而深

网络爬虫入门系列（一） (纯定义，可跳过不看)

公告