摘要:数据准备2 数据清洗2 小案例实战 好的数据分析师必定是一名数据清洗高手,没有高质量的数据,就没有高质量的数据挖掘 现有如下数据,然后我们对它进行数据清洗: 我个人进行清洗的原则是,先对列或行进行增加/删除/分割/插入,再对“单元格”进行修整 0.读取原始数据 import pandas as pd
阅读全文
摘要:Pandas库的基本使用 pip安装 Series DataFrame 安装pip pip是Python的包管理工具,熟悉Linux的朋友应该对包管理工具很熟悉(yum),一些库被集成在了pip中,因此我们需要安装pip(win10) 在官方下载地址:https://pypi.org/project
阅读全文
摘要:Numpy库的基本使用 库的导入 PyCharm file - Setting - Project interpreter - + - (Searh what you need) - Install Package 多维数组 import numpy as np a = np.array([[1,
阅读全文
摘要:数据准备3 数据统计 import numpy as np # 算数运算 # 创建等差数组 # np.arange() 初始值、终值、步长 默认不包括终值 x1 = np.arange(1, 11, 2) # np.linspace() 初始值、终止、元素个数 默认包括终值 x2 = np.lins
阅读全文
摘要:数据准备2 数据清洗 import platform from pandas import DataFrame print("当前所使用的python版本是:", platform.python_version()) data = {'Chinese': [66, 95, 93, 90, 80],
阅读全文
摘要:数据准备1 数据导入、导出 读取Excel(.xlsx文件)并进行导出备份 import pandas as pd from pandas import DataFrame # Pandas可以直接从xlsx(excel)、csv等文件中导入数据,也可以输出到xlsx(excel)、csv格式中 s
阅读全文
摘要:数据分析基本流程 Python基本数据类型 Python各种括号的使用方式 数据分析基本流程 数据采集 数据挖掘 理解业务需求,对挖掘目标进行定义 理解数据:进行数据描述,数据质量验证 数据准备:收集数据(数据导入与导出)、数据清洗、数据集成 建模:选择和应用各种数据挖掘类型 数据可视化 报表工具
阅读全文
摘要:fineBI 学习成果展示1 最近在实习的部门偶然了解到fineBI这样一个工具,遂进行了探索性学习,感觉真的挺好用的,在此将这两三天的初学成果展示出来 初次接触后感觉fineBI比较好用的功能有:图表联动、地图功能、地图下钻 有待改进的地方有:我们经常通过颜色对主张图进行区分,但fineBI目前只
阅读全文
摘要:win10 访问远程文件夹 此共享需要过时的SMB1协议 你不能访问此共享文件夹 step1 开放协议 在windows功能中勾选SMB1.0并重启电脑 step2 修改本地策略 将“启动不安全的来宾登录”双击开启并确定 PS windows访问远程(局域网)使用\\,其实就是,\为本地路径,\\为
阅读全文
摘要:Navicat 1142 SELECT command denied to user 'sx'@'xxx' for table 'user' 使用Navicat使用sx用户连接数据库时或者连接为用户sx开放的数据库travel_agency时,Navicat窗口弹出上述问题  页是数据库管理存储空间的基本单位,即,数据库I/O的最小单位是页 InnoDB默认页大小为16K,可以通过show variavles like '%innodb_page_size
阅读全文
摘要:MySQL实验 内连接优化order by+limit 以及添加索引再次改进 在进行子查询优化双参数limit时我萌生了测试更加符合实际生产需要的ORDER BY + LIMIT的想法,或许我们也可以对ORDER BY + LIMIT 也进行适当优化 实验准备 使用MySQL官方的大数据库emplo
阅读全文
摘要:MySQL实验 子查询优化双参数limit 没想到双参数limit还有优化的余地,为了亲眼见到,今天来亲自实验一下。 实验准备 使用MySQL官方的大数据库employees进行实验,导入该示例库见此 准备使用其中的employees表,先查看一下表结构和表内的记录数量 mysql> desc em
阅读全文
摘要:MySQL 索引结构 hash 有序数组 除了最常见的树形索引结构,Hash索引也有它的独到之处。 Hash算法 Hash本身是一种函数,又被称为散列函数。 它的思路很简单:将key放在数组里,用一个hash算法把不同的key转换成一个确定的value,然后放在这个数组的指定位置 相同的输入永远可以
阅读全文
摘要:MySQL 树形索引结构 B树 B+树 如何评估适合索引的数据结构 索引的本质是一种数据结构 内存只是临时存储,容量有限且容易丢失数据。因此我们需要将数据放在硬盘上。 在硬盘上进行查询时也就产生了硬盘的I/O操作,而硬盘的I/O存取消耗的时间要比读取内存大很多。因此数据查询的时间主要决定于I/O操作
阅读全文
摘要:hbase2.1.9 centos7 完全分布式 搭建随记 这里是当初在三个ECS节点上搭建hadoop+zookeeper+hbase+solr的主要步骤,文章内容未经过润色,请参考的同学搭配其他博客一同使用,并记得根据实际情况调整相关参数 1. 指定位置解压 2. vi /etc/profile
阅读全文
摘要:zookeeper3.5.5 centos7 完全分布式 搭建随记 这里是当初在三个ECS节点上搭建hadoop+zookeeper+hbase+solr的主要步骤,文章内容未经过润色,请参考的同学搭配其他博客一同使用,并记得根据实际情况调整相关参数 0.prepare 准备奇数台已经配置好jdk的
阅读全文
摘要:Hadoop2.7.7 centos7 完全分布式 配置与问题随记 这里是当初在三个ECS节点上搭建hadoop+zookeeper+hbase+solr的主要步骤,文章内容未经过润色,请参考的同学搭配其他博客一同使用,并记得根据实际情况调整相关参数。 0.prepare jdk,推荐1.8 关闭防
阅读全文
摘要:MySQL索引 索引分类 最左前缀原则 覆盖索引 索引下推 联合索引顺序 What's Index ? 索引就是帮助RDBMS高效获取数据的数据结构。 索引可以让我们避免一行一行进行全表扫描。它的价值就是可以帮助你对数据进行快速定位。 索引分类 按照功能逻辑来分 普通索引 INDEX(col_nam
阅读全文
摘要:SQL基础随记3 范式 键 什么是范式?哈,自己设计会使用但是一问还真说不上来。遂将不太明晰的概念整体下 什么是 & 分类 范式(NF),一种规范,设计数据库模型时对关系内部各个属性之间的联系的合理化程度的不同等级的规范要求。 分类: 1NF、2NF、3NF、BCNF(巴斯科德范式)、4NF、5NF
阅读全文
摘要:MySQL调优 优化需要考虑哪些方面 优化目标与方向定位 总体目标:使得响应时间更快,吞吐量更大。 (throughout 吞吐量:单位时间内处理事务的数量) 如何找到需要优化的地方 使用反馈。比如做出一些操作后导致效率降低 分析日志。 监控服务器资源。系统,内存,I/O 监控数据库运行状况 可优化
阅读全文
摘要:MySQL 游标 SQL语句是“面向集合编程”,重点在于“获得什么”,而不是“如何获得”。 有时候我们不需要对查询结构集的每一条都进行相同的操作,而是只操作其中的某些行,这时候就需要面向过程的编程方法,而游标就是面向过程编程方式的体现 游标就相当于“指针”,它一次只指向一行 游标的作用就是用于对查询
阅读全文