web scraping

Web Scraping，就是指，用代码，从肉眼可见的网页上，抓取数据。Web Scraping 的基本原理：首先，你需要了解，网页是怎么呈现在，我们屏幕上的，其实就是，我们发出一个需求，然后百公里外的服务器回给我们一个回复，然后我们收看到一大堆文字，最后，浏览器偷偷的把这堆文字排好了版，放在了我们屏幕上。严肃地说，网络爬虫是驱动很多现代网络技术的核心，而且你并不需要拥有且使用一个很大的数据库。做任何跨领域的数据研究，你只需要搭建爬虫，并且从因特网上的无数不同网页上解释和储存数据即可。

Web scraping穿过整个网站有许多好处，包括1.生成网站地图。如果需要评估一个网站,重新设计网站，但是没有当前内容管理系统的权限，也没有可公开获取的网站地图。就可采用web scraping覆盖了它们整个网站，收集内部链接，并且将网页组织成文件夹格式的结构，以展示网站的结构。这允许我们迅速的找到那些不曾注意的节点，并且精确的计算需要设计的网页数目，以及有多少内容需要从旧页面上被迁移到新的网页。2.收集信息。若需要收集主题信息（故事、博客、新闻、等等），以便于做过一个特别的搜索平台原型。就可以用web scraping更好更广范围爬取（对于那些我们感兴趣的网站）。让爬虫在那些网站间穿梭，只收集那些感兴趣的主题信息。

详尽爬取一个网站的一般方法，是从一个最顶的页面（主页）开始，搜索这个页面的内部链接。然后爬取所有内部链接，找到每一个这些链接网页上的所有内部链接，再执行下一轮爬取。很明显，这种情况下任务会爆炸似的增长。如果每个页面有10个内部链接，一个网站假设有5层（对于中型大小的网站），其需要爬取的页面数量就很快会达到10的5次方，即100000个页面。说来也奇怪，一个典型的“5层深和每个页面10个链接”的网站，很少能有100000个或者以上的页面。究其原因，是绝大多数内部链接都是重复的。为了避免爬取重复的页面，很重要的是发现的所有内部链接都归一化处理，并添加到爬取列表中便于查询。只有那些新的链接会被爬取和在其中搜索额外的链接。

posted @ 2020-04-26 15:00 十五xxxx 阅读(480) 评论(0) 收藏举报

刷新页面返回顶部

马梦薇

web scraping

公告