摘要:
这是简易数据分析系列的第 10 篇文章。 **友情提示:**这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍。 我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到屏幕末尾的时候,APP 就会自动加载下一页的数据,从体验上来看,数据会源源不断的加载出来,永远 阅读全文
摘要:
这是简易数据分析系列的第 9 篇文章。 今天我们说说 Web Scraper 的一些小功能:自动控制 Web Scraper 抓取数量和 Web Scraper 的父子选择器。 如何只抓取前 100 条数据? 如果跟着上篇教程一步一步做下来,你会发现这个爬虫会一直运作,根本停不下来。网页有 1000 阅读全文
摘要:
这是简易数据分析系列的第 8 篇文章。 我们在Web Scraper 翻页——控制链接批量抓取数据一文中,介绍了控制网页链接批量抓取数据的办法。 但是你在预览一些网站时,会发现随着网页的下拉,你需要点击类似于**「加载更多」**的按钮去获取数据,而网页链接一直没有变化。 所以控制链接批量抓去数据的方 阅读全文
摘要:
这是简易数据分析系列的第 7 篇文章。 在第 4 篇文章里,我讲解了如何抓取单个网页里的单类信息; 在第 5 篇文章里,我讲解了如何抓取多个网页里的单类信息; 今天我们要讲的是,如何抓取多个网页里的多类信息。 这次的抓取是在简易数据分析 05的基础上进行的,所以我们一开始就解决了抓取多个网页的问题, 阅读全文
摘要:
今天我们说些轻松的,讲讲 Web Scraper 如何导出导入 Sitemap 文件。 阅读全文
摘要:
这是简易数据分析系列的第 5 篇文章,今天会讲一些 web scraper 分页的内容,属于 web scraper 的高级技巧。我们要在原来的豆瓣电影 TOP250 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据全部爬取下来。 阅读全文
摘要:
这是简易数据分析系列的第 4 篇文章。 今天我们开始数据抓取的第一课,完成我们的第一个爬虫。因为是刚刚开始,操作我会讲的非常详细,可能会有些啰嗦,希望各位不要嫌弃啊:) 有人之前可能学过一些爬虫知识,总觉得这是个复杂的东西,什么 HTTP、HTML、IP 池,在这里我们都不考虑这些东西。一是小的数据 阅读全文
摘要:
这是简易数据分析系列的第 3 篇文章。 上文我们安装了 Web Scraper 插件,我相信对于大部分人来说还是很简单的,这篇文章我们说些不一样的内容,讲讲浏览器里那些不被大多数人所知的骚操作。 作为普通的使用者,大家用浏览器就是查阅信息,浏览网页。但在开发者的眼里,Chrome 浏览器提供了非常强 阅读全文
摘要:
这是简易数据分析系列的第 2 篇文章。 上篇说了数据分析在生活中的重要性,从这篇开始,我们就要进入分析的实战内容了。数据分析数据分析,没有数据怎么分析?所以我们首先要学会采集数据。 我调研了很多采集数据的软件,综合评定下来发现最好用的还是 Web Scraper,这是一款 Chrome 浏览器插件。 阅读全文
摘要:
这是简易数据分析系列的第 1 篇文章。 为什么叫简易数据分析? 第 1 个原因是本教程面向纯小白用户,不写代码不写公式,迈出数据分析的第一步。 第 2 个原因是生活中很多的数据分析场合,都是很轻量的,不需要上 Python 爬虫、高并发架构,机器学习等重武器,一个浏览器再加一个 Excel 就足够了 阅读全文