摘要: 一、前言 上文,我们爬取了京东商城 糖果 的两千多条商品信息。今天,我们就来对它进行分析吧!(●'◡'●) 要点: 工具:jupyter notebook 用到的库:pandas、matplotlib、jieba 下面我们开始吧! 二、数据处理 1.数据清洗 1.首先从csv文件中导入数据 查看下有 阅读全文
posted @ 2020-03-18 22:17 飞小飞 阅读(2331) 评论(0) 推荐(2)
摘要: 前言 这两天原本想在淘宝上爬点东西进行分析的,但没想到淘宝的反爬机制对我这个爬虫菜鸡充满了恶意。先是被数据的格式搞得焦头烂额,好不容易写好了测试一页的代码,准备美滋滋开始大显身手,爬取多页时,发现竟然被封IP了!呜呜┭┮﹏┭┮。于是,开始研究各种反反爬的机制,IP代理,多线程、模拟登陆... ... 阅读全文
posted @ 2020-03-16 21:38 飞小飞 阅读(1136) 评论(0) 推荐(1)
摘要: 前言 上一次,我们爬取了猫眼电影的Top100数据,并将它存放在了csv文件中。今天,我们就将数据取出,来进行个简单的分析吧! 可视化分析 TOP100最多的国家或地区 首先,我们看一下拥有Top100最多的国家或者地区: 代码如下: 结果如下图: 可以看到除了网站中没有显示国家/地区的电影外,美国 阅读全文
posted @ 2020-03-16 16:48 飞小飞 阅读(549) 评论(0) 推荐(0)
摘要: 前言 学习python有一段时间了,之前一直忙于学习数据分析,耽搁了原本计划的博客更新。趁着这段空闲时间,打算开始更新一个爬虫系列。内容大致包括:使用正则表达式、xpath、BeautifulSoup、Pyquery等几个爬虫解析库来爬取一些常见的网站。就当作是对自己这一段时间的学习成果的一个检验。 阅读全文
posted @ 2020-03-12 16:56 飞小飞 阅读(629) 评论(0) 推荐(0)
摘要: 1.常用数据类型 整数:int,bit,tinyint(有符号范围-128-127,无符号范围:0-255) 小数:decimal(表示浮点数),如decimal(5,2)表示共存5位数,小数占2位 字符串:varchar(不定长)、char 日期时间:date(xx年--xx月--xx日)、tim 阅读全文
posted @ 2020-02-29 09:29 飞小飞 阅读(513) 评论(0) 推荐(0)