摘要: 1 Scikit-learn工具介绍 目前稳定版本0.19.1 1.1 安装 pip3 install scikit-learn==0.19.1 查看是否安装成功 import sklearn 注:安装scikit-learn需要Numpy, Scipy等库 1.2 Scikit-learn包含的内 阅读全文
posted @ 2021-09-13 16:22 Trouvaille_fighting 阅读(50) 评论(0) 推荐(0)
摘要: 1 什么是K-近邻算法 1.1 K-近邻算法(KNN)概念 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早是由Cover和Hart提出的一种分类算法 距离公式 欧式距离 1.2 电影类型分析 假设我们现 阅读全文
posted @ 2021-09-13 15:57 Trouvaille_fighting 阅读(97) 评论(0) 推荐(0)
摘要: 1 项目描述 背景:Facebook创建了一个虚拟世界,其中包括10公里*10公里共100平方公里的约10万个地方。对于给定的坐标集,您的任务将根据用户的位置,准确性和时间戳等预测用户下一次的签到位置。数据被制作成类似于来自移动设备的位置数据。 目标:预测一个人将要签到的地方 2 数据集介绍 文件说 阅读全文
posted @ 2021-09-13 15:43 Trouvaille_fighting 阅读(339) 评论(0) 推荐(0)
摘要: 1 问题描述 表述当前模型的输入应为二维数组,而得到的是一维数组 2 解决方法 2.1 使用array调整数据的形状,如果如果数据有单个功能或数组,则重新调整形状(-1,1)。如果数据包含单个示例,则重新调整形状(1,-1)。 new_x = np.array(new_x).reshape(1, - 阅读全文
posted @ 2021-09-13 11:21 Trouvaille_fighting 阅读(165) 评论(0) 推荐(0)
摘要: 1 分组API DataFrame.groupby(key, as_index=False) key:分组的列数据,可以多个 案例:不同颜色的不同笔的价格数据 col =pd.DataFrame({'color': ['white','red','green','red','green'], 'ob 阅读全文
posted @ 2021-09-11 11:00 Trouvaille_fighting 阅读(91) 评论(0) 推荐(0)
摘要: 1 概念 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表) pd.crosstab(value1, value2) 透视表:透视表是将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数 data.pivot_table() Data 阅读全文
posted @ 2021-09-11 10:36 Trouvaille_fighting 阅读(211) 评论(0) 推荐(0)
摘要: 1 pd.concat实现数据合并 pd.concat([data1, data2], axis=1) 按照行或列进行合并,axis=0为列索引,axis=1为行索引 # 按照行索引进行 pd.concat([data, dummies], axis=1) 2 pd.merge合并 pd.merge 阅读全文
posted @ 2021-09-11 10:20 Trouvaille_fighting 阅读(47) 评论(0) 推荐(0)
摘要: 1 什么是数据离散化 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。 qcut、cut实现数据分组【知道】 qcut:大致分为相同的几组 cut:自定义分组区间 get_dummies:实现哑变量矩阵 2 股票的涨跌幅离 阅读全文
posted @ 2021-09-11 10:04 Trouvaille_fighting 阅读(149) 评论(0) 推荐(0)
摘要: 1 处理缺失值NAN的方法 获取缺失值的标记方式(NaN或者其他标记方式) 如果缺失值的标记方式是NaN,判断数据中是否包含NaN: pd.isnull(df) pd.notnull(df) np.any(pd.isnull(movie)) # 里面如果有一个缺失值,就返回True np.all(p 阅读全文
posted @ 2021-09-11 09:44 Trouvaille_fighting 阅读(192) 评论(0) 推荐(0)
摘要: 1 CSV 1.1 read_csv pandas.read_csv(文件路径, sep =',', 指定读取的列名) sep表示分隔符,默认用","隔开 # 读取文件,并且指定只获取'open', 'close'指标 data = pd.read_csv("./data/stock_day.csv 阅读全文
posted @ 2021-09-10 21:56 Trouvaille_fighting 阅读(80) 评论(0) 推荐(0)