爬虫实例:天猫商品评论爬虫
摘要:最近被种草SK-II,本着学工科的严谨态度,决定用数据说话 爬取数据 参数解析 itemId是商品ID, sellerId 是卖家ID, currentPage是当前页码,目标url是https://rate.tmall.com/list_detail_rate.htm?itemId=1533213
阅读全文
posted @
2017-09-28 18:57
Ryana
阅读(5704)
推荐(0)
爬虫实例:饿了么爬虫
摘要:饿了么外卖网站是一个ajax动态加载的网站 Version1:直接页面提取 问题:根据//*[@class="place-rstbox clearfix"]xpath提取成功,但是rez输出为空 Version2:通过接口提取 geohash=ws101hcw982&latitude=22.5272
阅读全文
posted @
2017-09-28 17:35
Ryana
阅读(9415)
推荐(1)
爬虫实例:中国日报高频词汇爬虫
摘要:最近偶然打开一个英文网站,仔细一看原来是中国日报的英文版本,本着培养语感的想法多看看英语新闻,奈何水平渣渣,机智如我想到了爬取文章高频词汇,废话少说,看下文: 爬取中国日报全网所有文章链接 1.用bs4获取所有含有href属性的a标签 输出: 2.正则提取符合要求的链接 输出: 3.完整源码如下:
阅读全文
posted @
2017-09-22 16:43
Ryana
阅读(2262)
推荐(0)
爬虫实例:今日头条爬虫
摘要:今日头条是一个js动态加载的网站,尝试了两种方式爬取,一是页面直接提取,一是通过接口提取: version1:直接页面提取 问题:title = tree.xpath('//a[@class="link title"]/text()')提取内容失败,用xpath check插件提取成功 versio
阅读全文
posted @
2017-09-18 13:41
Ryana
阅读(19982)
推荐(1)
特殊类型的列表切片
摘要:遇到了一种类型奇怪的列表,如['ISBN;"Book-Title";"Book-Author";"Year-Of-Publication";"Publisher";"Image-URL-S";"Image-URL-M";"Image-URL-L"'],现想取引号内的值,索引行不通,正则太无语,折腾了
阅读全文
posted @
2017-09-12 17:37
Ryana
阅读(229)
推荐(0)
练习:万达院线股价分析
摘要:万达院线股价分析 数据来源:新浪财经、腾讯财经、上交所和深交所 分析时间:2017/9/11 分析目的:分析维度练习 数据采集 1.基本面数据 2.历史行情 数据分析 频率分析 1.可视化维度信息 2.计算收益分布 注:收益分布图两段趋平,暂时还没搞清楚是什么原因 探索性分析 1.分析均价、收盘价、
阅读全文
posted @
2017-09-11 14:57
Ryana
阅读(624)
推荐(0)
MongoDB基本用法
摘要:MongoDB是一个基于分布式文件存储的开源数据库系统。将数据存储为一个文档,数据结构由键值(key=>value)对组成。 MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。 启动MongoDB服务 cmd进入F:\MongoDB\3.4\bin目录下,输入启动命
阅读全文
posted @
2017-09-09 12:38
Ryana
阅读(382)
推荐(0)
数据可视化利器pyechart和matplotlib比较
摘要:python中用作数据可视化的工具有多种,其中matplotlib最为基础。故在工具选择上,图形美观之外,操作方便即上乘。 本文着重说明常见图表用基础版matplotlib和改良版pyecharts作图间的差异 一、maplotlib 基本用法如下: 可能遇到的问题: 1.axes[ ][ ]前面的
阅读全文
posted @
2017-09-02 13:11
Ryana
阅读(8242)
推荐(0)
练习:微信好友分析
摘要:来源:http://www.cnblogs.com/jiaoyu121/p/6944398.html 1.好友性别分布 输出: 可视化 输出 2.好友个性签名 输出: 可视化 输出 3.自动回复 输出:
阅读全文
posted @
2017-09-02 12:25
Ryana
阅读(355)
推荐(0)