飞小飞

2020年3月18日

摘要：一、前言上文，我们爬取了京东商城糖果的两千多条商品信息。今天，我们就来对它进行分析吧！(●'◡'●) 要点：工具：jupyter notebook 用到的库：pandas、matplotlib、jieba 下面我们开始吧！二、数据处理 1.数据清洗 1.首先从csv文件中导入数据查看下有阅读全文

posted @ 2020-03-18 22:17 飞小飞阅读(2354) 评论(0) 推荐(2)

2020年3月16日

爬虫连载系列(3)--用Selenium+xpath爬取京东商城

摘要：前言这两天原本想在淘宝上爬点东西进行分析的，但没想到淘宝的反爬机制对我这个爬虫菜鸡充满了恶意。先是被数据的格式搞得焦头烂额，好不容易写好了测试一页的代码，准备美滋滋开始大显身手，爬取多页时，发现竟然被封IP了！呜呜┭┮﹏┭┮。于是，开始研究各种反反爬的机制，IP代理，多线程、模拟登陆... ... 阅读全文

posted @ 2020-03-16 21:38 飞小飞阅读(1161) 评论(0) 推荐(1)

对猫眼T100进行简单数据分析

摘要：前言上一次，我们爬取了猫眼电影的Top100数据，并将它存放在了csv文件中。今天，我们就将数据取出，来进行个简单的分析吧！可视化分析 TOP100最多的国家或地区首先，我们看一下拥有Top100最多的国家或者地区：代码如下：结果如下图：可以看到除了网站中没有显示国家/地区的电影外，美国阅读全文

posted @ 2020-03-16 16:48 飞小飞阅读(551) 评论(0) 推荐(0)

2020年3月12日

# 爬虫连载系列(1)--爬取猫眼电影Top100

摘要：前言学习python有一段时间了，之前一直忙于学习数据分析，耽搁了原本计划的博客更新。趁着这段空闲时间，打算开始更新一个爬虫系列。内容大致包括：使用正则表达式、xpath、BeautifulSoup、Pyquery等几个爬虫解析库来爬取一些常见的网站。就当作是对自己这一段时间的学习成果的一个检验。阅读全文

posted @ 2020-03-12 16:56 飞小飞阅读(633) 评论(0) 推荐(0)

2020年2月29日

sql语句

摘要： 1.常用数据类型整数：int,bit，tinyint(有符号范围-128-127，无符号范围：0-255）小数：decimal(表示浮点数)，如decimal（5，2）表示共存5位数，小数占2位字符串：varchar（不定长）、char 日期时间：date（xx年--xx月--xx日）、tim 阅读全文

posted @ 2020-02-29 09:29 飞小飞阅读(519) 评论(0) 推荐(0)

公告