2019 年 7月 15 日随笔档案 - HankCui

Python virtualenv 所有环境配置（linux、windows、vscode && vscode code-runner、jupyter-notebook）

摘要：目录：一、irtualenv使用二、scode中配置virtualenv、python代码规范三、ubuntu安装jupyter notebook 四、notebook中添加virtualenv环境五、ubuntu中切换python版本六、windows jupyter添加、删除virtu 阅读全文

posted @ 2019-07-15 20:47 HankCui 阅读(1407) 评论(0) 推荐(0)

Python I/O ————yaml文件操作

摘要：这两天玩欧冠数据，看到数据格式是.yml结尾的文件，就查了下什么是yaml文件，Python怎么操作 yaml文件简述 yaml： Yet Another Markup Language，一种基于Unicode容易阅读的、与脚本交互的用于表达资料序列的编程语言。类似于XML，但语法比XML简单阅读全文

posted @ 2019-07-15 20:42 HankCui 阅读(1001) 评论(0) 推荐(0)

numpy—————数组操作

摘要：最近看了《利用Python进行数据分析》复习了一下Numpy里的一些操作，做一些基本函数使用的总结，避免后面忘了又瞎找，提高效率。一、数组生成创建数组 # 1. 一维数组 import numpy as np num = [ 1, 2, 3, 4, 5] data = np.array(num 阅读全文

posted @ 2019-07-15 16:34 HankCui 阅读(325) 评论(0) 推荐(0)

ML———聚类算法之K-Means

摘要：一、聚类模型简述。聚类算法属于无监督学习，样本标记信息未知，通过学习数据本身的内在性质和规律，试图将数据集划分为若干个相似子集。聚类模型区别于分类模型的主要有一下几点： 1. 数据集无标注，我不知道数据具体有几类，而是通过机器聚类告诉我这个数据集可以有几个类属性。 2. 在学习过程中无需调参。阅读全文

posted @ 2019-07-15 16:07 HankCui 阅读(825) 评论(0) 推荐(0)

DataFrame————数据离散化处理（元素定位与离散化处理）

摘要：以前老踩这坑，没总结。。。。。数据集如下：上面age列是根据出生日期得到的年龄，我要将age连续数据离散化，改成4个年龄段的，“20~25 离散化为数值1， 26~30 离散化为数值2， 30~35离散化为数值3 和 >35 离散化数值4 ” 的四段。修改这些数据时，需要通过行列定位再来处理，阅读全文

posted @ 2019-07-15 15:43 HankCui 阅读(590) 评论(0) 推荐(0)

2019年7月15日

公告