会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
飞小飞
博客园
首页
新随笔
联系
订阅
管理
2020年3月18日
爬取京东商品并分析
摘要: 一、前言 上文,我们爬取了京东商城 糖果 的两千多条商品信息。今天,我们就来对它进行分析吧!(●'◡'●) 要点: 工具:jupyter notebook 用到的库:pandas、matplotlib、jieba 下面我们开始吧! 二、数据处理 1.数据清洗 1.首先从csv文件中导入数据 查看下有
阅读全文
posted @ 2020-03-18 22:17 飞小飞
阅读(2331)
评论(0)
推荐(2)
2020年3月16日
爬虫连载系列(3)--用Selenium+xpath爬取京东商城
摘要: 前言 这两天原本想在淘宝上爬点东西进行分析的,但没想到淘宝的反爬机制对我这个爬虫菜鸡充满了恶意。先是被数据的格式搞得焦头烂额,好不容易写好了测试一页的代码,准备美滋滋开始大显身手,爬取多页时,发现竟然被封IP了!呜呜┭┮﹏┭┮。于是,开始研究各种反反爬的机制,IP代理,多线程、模拟登陆... ...
阅读全文
posted @ 2020-03-16 21:38 飞小飞
阅读(1136)
评论(0)
推荐(1)
对猫眼T100进行简单数据分析
摘要: 前言 上一次,我们爬取了猫眼电影的Top100数据,并将它存放在了csv文件中。今天,我们就将数据取出,来进行个简单的分析吧! 可视化分析 TOP100最多的国家或地区 首先,我们看一下拥有Top100最多的国家或者地区: 代码如下: 结果如下图: 可以看到除了网站中没有显示国家/地区的电影外,美国
阅读全文
posted @ 2020-03-16 16:48 飞小飞
阅读(549)
评论(0)
推荐(0)
2020年3月12日
# 爬虫连载系列(1)--爬取猫眼电影Top100
摘要: 前言 学习python有一段时间了,之前一直忙于学习数据分析,耽搁了原本计划的博客更新。趁着这段空闲时间,打算开始更新一个爬虫系列。内容大致包括:使用正则表达式、xpath、BeautifulSoup、Pyquery等几个爬虫解析库来爬取一些常见的网站。就当作是对自己这一段时间的学习成果的一个检验。
阅读全文
posted @ 2020-03-12 16:56 飞小飞
阅读(629)
评论(0)
推荐(0)
2020年2月29日
sql语句
摘要: 1.常用数据类型 整数:int,bit,tinyint(有符号范围-128-127,无符号范围:0-255) 小数:decimal(表示浮点数),如decimal(5,2)表示共存5位数,小数占2位 字符串:varchar(不定长)、char 日期时间:date(xx年--xx月--xx日)、tim
阅读全文
posted @ 2020-02-29 09:29 飞小飞
阅读(513)
评论(0)
推荐(0)
公告