2017年9月28日
摘要:
饿了么外卖网站是一个ajax动态加载的网站 Version1:直接页面提取 问题:根据//*[@class="place-rstbox clearfix"]xpath提取成功,但是rez输出为空 Version2:通过接口提取 geohash=ws101hcw982&latitude=22.5272
阅读全文
posted @ 2017-09-28 17:35
Ryana
阅读(9406)
推荐(1)
2017年9月22日
摘要:
最近偶然打开一个英文网站,仔细一看原来是中国日报的英文版本,本着培养语感的想法多看看英语新闻,奈何水平渣渣,机智如我想到了爬取文章高频词汇,废话少说,看下文: 爬取中国日报全网所有文章链接 1.用bs4获取所有含有href属性的a标签 输出: 2.正则提取符合要求的链接 输出: 3.完整源码如下:
阅读全文
posted @ 2017-09-22 16:43
Ryana
阅读(2244)
推荐(0)
2017年9月18日
摘要:
今日头条是一个js动态加载的网站,尝试了两种方式爬取,一是页面直接提取,一是通过接口提取: version1:直接页面提取 问题:title = tree.xpath('//a[@class="link title"]/text()')提取内容失败,用xpath check插件提取成功 versio
阅读全文
posted @ 2017-09-18 13:41
Ryana
阅读(19970)
推荐(1)
2017年9月12日
摘要:
遇到了一种类型奇怪的列表,如['ISBN;"Book-Title";"Book-Author";"Year-Of-Publication";"Publisher";"Image-URL-S";"Image-URL-M";"Image-URL-L"'],现想取引号内的值,索引行不通,正则太无语,折腾了
阅读全文
posted @ 2017-09-12 17:37
Ryana
阅读(227)
推荐(0)
2017年9月11日
摘要:
万达院线股价分析 数据来源:新浪财经、腾讯财经、上交所和深交所 分析时间:2017/9/11 分析目的:分析维度练习 数据采集 1.基本面数据 2.历史行情 数据分析 频率分析 1.可视化维度信息 2.计算收益分布 注:收益分布图两段趋平,暂时还没搞清楚是什么原因 探索性分析 1.分析均价、收盘价、
阅读全文
posted @ 2017-09-11 14:57
Ryana
阅读(618)
推荐(0)
2017年9月9日
摘要:
MongoDB是一个基于分布式文件存储的开源数据库系统。将数据存储为一个文档,数据结构由键值(key=>value)对组成。 MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。 启动MongoDB服务 cmd进入F:\MongoDB\3.4\bin目录下,输入启动命
阅读全文
posted @ 2017-09-09 12:38
Ryana
阅读(377)
推荐(0)
2017年9月2日
摘要:
python中用作数据可视化的工具有多种,其中matplotlib最为基础。故在工具选择上,图形美观之外,操作方便即上乘。 本文着重说明常见图表用基础版matplotlib和改良版pyecharts作图间的差异 一、maplotlib 基本用法如下: 可能遇到的问题: 1.axes[ ][ ]前面的
阅读全文
posted @ 2017-09-02 13:11
Ryana
阅读(8224)
推荐(0)
摘要:
来源:http://www.cnblogs.com/jiaoyu121/p/6944398.html 1.好友性别分布 输出: 可视化 输出 2.好友个性签名 输出: 可视化 输出 3.自动回复 输出:
阅读全文
posted @ 2017-09-02 12:25
Ryana
阅读(351)
推荐(0)
2017年8月31日
摘要:
数据结构是计算机存储和组织数据的方式。Python中有三类四种内建的数据结构,分别是序列(List、Tuple)、映射(Dictionary)以及集合(Set)。 此外,数据分析库Numpy和Pandas还提供了ndarry、Series、DataFrame等数据类型,不同的数据类型在程序中会常常遇
阅读全文
posted @ 2017-08-31 15:11
Ryana
阅读(1080)
推荐(0)
2017年8月20日
摘要:
Pandas是一个Python库,旨在通过“标记”和“关系”数据以完成数据整理工作,库中有两个主要的数据结构Series和DataFrame 本文主要说明完成数据整理的几大步骤: 1.数据来源 1)加载数据 2)随机采样 2.数据清洗 0)数据统计(贯穿整个过程) 1)处理缺失值 2)层次化索引 3
阅读全文
posted @ 2017-08-20 15:24
Ryana
阅读(2856)
推荐(0)