web scraping

Web Scraping,就是指,用代码,从肉眼可见的网页上,抓取数据。Web Scraping 的基本原理:首先,你需要了解,网页是怎么呈现在,我们屏幕上的其实就是,我们发出一个需求,然后百公里外的服务器回给我们一个回复,然后我们收看到一大堆文字,最后,浏览器偷偷的把这堆文字排好了版,放在了我们屏幕上严肃地说,网络爬虫是驱动很多现代网络技术的核心,而且你并不需要拥有且使用一个很大的数据库。做任何跨领域的数据研究,你只需要搭建爬虫,并且从因特网上的无数不同网页上解释和储存数据即可。

Web scraping穿过整个网站有许多好处,包括1.生成网站地图。如果需要评估一个网站,重新设计网站,但是没有当前内容管理系统的权限,也没有可公开获取的网站地图。就可采用web scraping覆盖了它们整个网站,收集内部链接,并且将网页组织成文件夹格式的结构,以展示网站的结构。这允许我迅速的找到那些不曾注意的节点,并且精确的计算需要设计的网页数目,以及有多少内容需要从旧页面上被迁移到新的网页。2.收集信息若需要收集主题信息(故事、博客、新闻、等等),以便于做过一个特别的搜索平台原型。就可以用web scraping更好更广范围爬取(对于那些我们感兴趣的网站)。让爬虫在那些网站间穿梭只收集那些感兴趣的主题信息。

详尽爬取一个网站的一般方法,是从一个最顶的页面(主页)开始,搜索这个页面的内部链接。然后爬取所有内部链接,找到每一个这些链接网页上的所有内部链接,再执行下一轮爬取。很明显,这种情况下任务会爆炸似的增长。如果每个页面有10个内部链接,一个网站假设有5层(对于中型大小的网站),其需要爬取的页面数量就很快会达到10的5次方,即100000个页面。说来也奇怪,一个典型的“5层深和每个页面10个链接”的网站,很少能有100000个或者以上的页面。究其原因,是绝大多数内部链接都是重复的。为了避免爬取重复的页面,很重要的是发现的所有内部链接都归一化处理,并添加到爬取列表中便于查询。只有那些新的链接会被爬取和在其中搜索额外的链接。

posted @ 2020-04-26 15:00  十五xxxx  阅读(480)  评论(0)    收藏  举报