Trouvaille_fighting

2021年9月13日

摘要： 1 Scikit-learn工具介绍目前稳定版本0.19.1 1.1 安装 pip3 install scikit-learn==0.19.1 查看是否安装成功 import sklearn 注：安装scikit-learn需要Numpy, Scipy等库 1.2 Scikit-learn包含的内阅读全文

posted @ 2021-09-13 16:22 Trouvaille_fighting 阅读(51) 评论(0) 推荐(0)

K-近邻1-算法简介

摘要： 1 什么是K-近邻算法 1.1 K-近邻算法(KNN)概念定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源：KNN算法最早是由Cover和Hart提出的一种分类算法距离公式欧式距离 1.2 电影类型分析假设我们现阅读全文

posted @ 2021-09-13 15:57 Trouvaille_fighting 阅读(102) 评论(0) 推荐(0)

K-近邻11-案例2：预测facebook签到位置

摘要： 1 项目描述背景：Facebook创建了一个虚拟世界，其中包括10公里*10公里共100平方公里的约10万个地方。对于给定的坐标集，您的任务将根据用户的位置，准确性和时间戳等预测用户下一次的签到位置。数据被制作成类似于来自移动设备的位置数据。目标：预测一个人将要签到的地方 2 数据集介绍文件说阅读全文

posted @ 2021-09-13 15:43 Trouvaille_fighting 阅读(345) 评论(0) 推荐(0)

使用sklearn报错ValueError: Expected 2D array, got 1D array instead

摘要： 1 问题描述表述当前模型的输入应为二维数组，而得到的是一维数组 2 解决方法 2.1 使用array调整数据的形状，如果如果数据有单个功能或数组，则重新调整形状（-1，1）。如果数据包含单个示例，则重新调整形状（1，-1）。 new_x = np.array(new_x).reshape(1, - 阅读全文

posted @ 2021-09-13 11:21 Trouvaille_fighting 阅读(171) 评论(0) 推荐(0)

2021年9月11日

Pandas-分组与聚合

摘要： 1 分组API DataFrame.groupby(key, as_index=False) key:分组的列数据，可以多个案例:不同颜色的不同笔的价格数据 col =pd.DataFrame({'color': ['white','red','green','red','green'], 'ob 阅读全文

posted @ 2021-09-11 11:00 Trouvaille_fighting 阅读(94) 评论(0) 推荐(0)

Pandas-交叉表与透视表

摘要： 1 概念交叉表：交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表) pd.crosstab(value1, value2) 透视表：透视表是将原有的DataFrame的列分别作为行索引和列索引，然后对指定的列应用聚集函数 data.pivot_table(） Data 阅读全文

posted @ 2021-09-11 10:36 Trouvaille_fighting 阅读(224) 评论(0) 推荐(0)

Pandas-合并

摘要： 1 pd.concat实现数据合并 pd.concat([data1, data2], axis=1) 按照行或列进行合并,axis=0为列索引，axis=1为行索引 # 按照行索引进行 pd.concat([data, dummies], axis=1) 2 pd.merge合并 pd.merge 阅读全文

posted @ 2021-09-11 10:20 Trouvaille_fighting 阅读(50) 评论(0) 推荐(0)

Pandas-数据离散化

摘要： 1 什么是数据离散化连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。 qcut、cut实现数据分组【知道】 qcut:大致分为相同的几组 cut:自定义分组区间 get_dummies:实现哑变量矩阵 2 股票的涨跌幅离阅读全文

posted @ 2021-09-11 10:04 Trouvaille_fighting 阅读(165) 评论(0) 推荐(0)

Pandas-缺失值处理

摘要： 1 处理缺失值NAN的方法获取缺失值的标记方式(NaN或者其他标记方式) 如果缺失值的标记方式是NaN，判断数据中是否包含NaN： pd.isnull(df) pd.notnull(df) np.any(pd.isnull(movie)) # 里面如果有一个缺失值,就返回True np.all(p 阅读全文

posted @ 2021-09-11 09:44 Trouvaille_fighting 阅读(212) 评论(0) 推荐(0)

2021年9月10日

文件读取与存储

摘要： 1 CSV 1.1 read_csv pandas.read_csv(文件路径, sep =',', 指定读取的列名) sep表示分隔符，默认用","隔开 # 读取文件,并且指定只获取'open', 'close'指标 data = pd.read_csv("./data/stock_day.csv 阅读全文

posted @ 2021-09-10 21:56 Trouvaille_fighting 阅读(93) 评论(0) 推荐(0)

Trouvaille

持续学习...

公告