2017 年 9月随笔档案 - Ryana

爬虫实例：天猫商品评论爬虫

摘要：最近被种草SK-II，本着学工科的严谨态度，决定用数据说话爬取数据参数解析 itemId是商品ID， sellerId 是卖家ID， currentPage是当前页码，目标url是https://rate.tmall.com/list_detail_rate.htm?itemId=1533213 阅读全文

posted @ 2017-09-28 18:57 Ryana 阅读(5704) 评论(0) 推荐(0)

爬虫实例：饿了么爬虫

摘要：饿了么外卖网站是一个ajax动态加载的网站 Version1:直接页面提取问题：根据//*[@class="place-rstbox clearfix"]xpath提取成功，但是rez输出为空 Version2:通过接口提取 geohash=ws101hcw982&latitude=22.5272 阅读全文

posted @ 2017-09-28 17:35 Ryana 阅读(9415) 评论(3) 推荐(1)

爬虫实例：中国日报高频词汇爬虫

摘要：最近偶然打开一个英文网站，仔细一看原来是中国日报的英文版本，本着培养语感的想法多看看英语新闻，奈何水平渣渣，机智如我想到了爬取文章高频词汇，废话少说，看下文：爬取中国日报全网所有文章链接 1.用bs4获取所有含有href属性的a标签输出： 2.正则提取符合要求的链接输出： 3.完整源码如下：阅读全文

posted @ 2017-09-22 16:43 Ryana 阅读(2262) 评论(0) 推荐(0)

爬虫实例：今日头条爬虫

摘要：今日头条是一个js动态加载的网站，尝试了两种方式爬取，一是页面直接提取，一是通过接口提取： version1：直接页面提取问题：title = tree.xpath('//a[@class="link title"]/text()')提取内容失败，用xpath check插件提取成功 versio 阅读全文

posted @ 2017-09-18 13:41 Ryana 阅读(19982) 评论(0) 推荐(1)

特殊类型的列表切片

摘要：遇到了一种类型奇怪的列表，如['ISBN;"Book-Title";"Book-Author";"Year-Of-Publication";"Publisher";"Image-URL-S";"Image-URL-M";"Image-URL-L"']，现想取引号内的值，索引行不通，正则太无语，折腾了阅读全文

posted @ 2017-09-12 17:37 Ryana 阅读(229) 评论(0) 推荐(0)

练习：万达院线股价分析

摘要：万达院线股价分析数据来源：新浪财经、腾讯财经、上交所和深交所分析时间：2017/9/11 分析目的：分析维度练习数据采集 1.基本面数据 2.历史行情数据分析频率分析 1.可视化维度信息 2.计算收益分布注：收益分布图两段趋平，暂时还没搞清楚是什么原因探索性分析 1.分析均价、收盘价、阅读全文

posted @ 2017-09-11 14:57 Ryana 阅读(624) 评论(0) 推荐(0)

MongoDB基本用法

摘要：MongoDB是一个基于分布式文件存储的开源数据库系统。将数据存储为一个文档，数据结构由键值(key=>value)对组成。 MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档，数组及文档数组。启动MongoDB服务 cmd进入F:\MongoDB\3.4\bin目录下，输入启动命阅读全文

posted @ 2017-09-09 12:38 Ryana 阅读(382) 评论(0) 推荐(0)

数据可视化利器pyechart和matplotlib比较

摘要：python中用作数据可视化的工具有多种，其中matplotlib最为基础。故在工具选择上，图形美观之外，操作方便即上乘。本文着重说明常见图表用基础版matplotlib和改良版pyecharts作图间的差异一、maplotlib 基本用法如下：可能遇到的问题： 1.axes[ ][ ]前面的阅读全文

posted @ 2017-09-02 13:11 Ryana 阅读(8242) 评论(0) 推荐(0)

练习：微信好友分析

摘要：来源：http://www.cnblogs.com/jiaoyu121/p/6944398.html 1.好友性别分布输出：可视化输出 2.好友个性签名输出：可视化输出 3.自动回复输出：阅读全文

posted @ 2017-09-02 12:25 Ryana 阅读(355) 评论(0) 推荐(0)