机器学习 - 随笔分类 - Trouvaille_fighting

cv比赛-人脸检测

摘要：任务合集 1 任务1 1.1 读取比赛数据集 import pandas as pd import numpy as np # 1 获取数据集 train_df=pd.read_csv('data/face/train.csv') #数据集的地址 # 2 读取训练集图片数据，维度为96*96&500 阅读全文

posted @ 2021-10-03 22:24 Trouvaille_fighting 阅读(85) 评论(0) 推荐(0)

数据报告+翻译软件

摘要：数据报告国家统计局（www.stats.gov.cn）官方平台，数据资源十分丰富，涵盖了经济、工业、全国普查、生产资料、就业人员平均工资等情况的数据。一般来说，这个网站能满足同学们获取数据报告的大部分需求。此外，更贴心的是，网站的最底部还可以链接到地方统计网站、地方政府网站以及国外统计网站等。对阅读全文

posted @ 2021-09-28 15:39 Trouvaille_fighting 阅读(149) 评论(0) 推荐(0)

比赛经验学习1

摘要：1 比赛常见名词： Feature 特征变量，也叫自变量，是样本可以观测到的特征，通常是模型的输入。 Label 标签，也叫目标变量，需要预测的变量，通常是模型的标签或者输出。 Train Data 训练数据，有标签的数据，由举办方提供。 Test Data 测试数据，标签未知，是比赛用来评估得分阅读全文

posted @ 2021-09-28 11:32 Trouvaille_fighting 阅读(80) 评论(0) 推荐(0)

聚类算法7-案例-探究用户对物品类别的喜好细分

摘要：探究用户对物品类别的喜好细分应用pca和K-means实现用户对物品类别的喜好细分划分数据如下： order_products__prior.csv：订单与商品信息字段：order_id, product_id, add_to_cart_order, reordered products.cs 阅读全文

posted @ 2021-09-27 11:07 Trouvaille_fighting 阅读(354) 评论(0) 推荐(0)

开源数据集

摘要：1 各个领域的数据集一、自动驾驶领域数据集二、目标检测数据集三、人脸识别类数据集四、人体姿态估计类数据集五、文本检测类数据集六、NLP数据集七、医学类数据集 https://mp.weixin.qq.com/s/Q8HAi08dce5dvSz1WGcqAA 2 交通领域开源数据集 NG 阅读全文

posted @ 2021-09-14 16:53 Trouvaille_fighting 阅读(1825) 评论(0) 推荐(0)

k近邻9-交叉验证，网格搜索优化模型

摘要：1 什么是交叉验证(cross validation) 交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。 1.1 分析为了让从训练得到模型结阅读全文

posted @ 2021-09-13 19:30 Trouvaille_fighting 阅读(297) 评论(0) 推荐(0)

k近邻8-案例：鸢尾花种类预测—流程实现

摘要：1 数据集 2 方法 sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') algorithm（auto,ball_tree, kd_tree, brute） -- 选择什么样的算法进行计算 3 案例实现导入模阅读全文

posted @ 2021-09-13 19:10 Trouvaille_fighting 阅读(180) 评论(0) 推荐(0)

K近邻6-sklearn获取数据集及对数据集划分

摘要：1 案例：鸢尾花种类预测 Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。 2 scikit-learn中数据集介绍获取数据集的方式 sklearn.datasets.load_*() 加载小规模数据集 sklearn.datasets.fetch_*(data_home=None,sub 阅读全文

posted @ 2021-09-13 18:38 Trouvaille_fighting 阅读(205) 评论(0) 推荐(0)

k近邻2-api初步使用

摘要：1 Scikit-learn工具介绍目前稳定版本0.19.1 1.1 安装 pip3 install scikit-learn==0.19.1 查看是否安装成功 import sklearn 注：安装scikit-learn需要Numpy, Scipy等库 1.2 Scikit-learn包含的内阅读全文

posted @ 2021-09-13 16:22 Trouvaille_fighting 阅读(50) 评论(0) 推荐(0)

K-近邻11-案例2：预测facebook签到位置

摘要：1 项目描述背景：Facebook创建了一个虚拟世界，其中包括10公里*10公里共100平方公里的约10万个地方。对于给定的坐标集，您的任务将根据用户的位置，准确性和时间戳等预测用户下一次的签到位置。数据被制作成类似于来自移动设备的位置数据。目标：预测一个人将要签到的地方 2 数据集介绍文件说阅读全文

posted @ 2021-09-13 15:43 Trouvaille_fighting 阅读(341) 评论(0) 推荐(0)

使用sklearn报错ValueError: Expected 2D array, got 1D array instead

摘要：1 问题描述表述当前模型的输入应为二维数组，而得到的是一维数组 2 解决方法 2.1 使用array调整数据的形状，如果如果数据有单个功能或数组，则重新调整形状（-1，1）。如果数据包含单个示例，则重新调整形状（1，-1）。 new_x = np.array(new_x).reshape(1, - 阅读全文

posted @ 2021-09-13 11:21 Trouvaille_fighting 阅读(167) 评论(0) 推荐(0)

Pandas-分组与聚合

摘要：1 分组API DataFrame.groupby(key, as_index=False) key:分组的列数据，可以多个案例:不同颜色的不同笔的价格数据 col =pd.DataFrame({'color': ['white','red','green','red','green'], 'ob 阅读全文

posted @ 2021-09-11 11:00 Trouvaille_fighting 阅读(92) 评论(0) 推荐(0)

Pandas-交叉表与透视表

摘要：1 概念交叉表：交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表) pd.crosstab(value1, value2) 透视表：透视表是将原有的DataFrame的列分别作为行索引和列索引，然后对指定的列应用聚集函数 data.pivot_table(） Data 阅读全文

posted @ 2021-09-11 10:36 Trouvaille_fighting 阅读(219) 评论(0) 推荐(0)

Pandas-合并

摘要：1 pd.concat实现数据合并 pd.concat([data1, data2], axis=1) 按照行或列进行合并,axis=0为列索引，axis=1为行索引 # 按照行索引进行 pd.concat([data, dummies], axis=1) 2 pd.merge合并 pd.merge 阅读全文

posted @ 2021-09-11 10:20 Trouvaille_fighting 阅读(48) 评论(0) 推荐(0)

Pandas-数据离散化

摘要：1 什么是数据离散化连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。 qcut、cut实现数据分组【知道】 qcut:大致分为相同的几组 cut:自定义分组区间 get_dummies:实现哑变量矩阵 2 股票的涨跌幅离阅读全文

posted @ 2021-09-11 10:04 Trouvaille_fighting 阅读(159) 评论(0) 推荐(0)

Pandas-缺失值处理

摘要：1 处理缺失值NAN的方法获取缺失值的标记方式(NaN或者其他标记方式) 如果缺失值的标记方式是NaN，判断数据中是否包含NaN： pd.isnull(df) pd.notnull(df) np.any(pd.isnull(movie)) # 里面如果有一个缺失值,就返回True np.all(p 阅读全文

posted @ 2021-09-11 09:44 Trouvaille_fighting 阅读(201) 评论(0) 推荐(0)

文件读取与存储

摘要：1 CSV 1.1 read_csv pandas.read_csv(文件路径, sep =',', 指定读取的列名) sep表示分隔符，默认用","隔开 # 读取文件,并且指定只获取'open', 'close'指标 data = pd.read_csv("./data/stock_day.csv 阅读全文

posted @ 2021-09-10 21:56 Trouvaille_fighting 阅读(87) 评论(0) 推荐(0)

Pandas画图

摘要：1.pandas.DataFrame.plot DataFrame.plot(kind='line') kind=line(折线性) bar(垂直条图) barth(水平条图) hist(柱状图) pie(饼图) scatter plot (散点图) 2. pandas.Series.plot 阅读全文

posted @ 2021-09-10 21:27 Trouvaille_fighting 阅读(79) 评论(0) 推荐(0)

Pandas-DataFrame运算

摘要：1 算术运算【知道】 add(other) sub(other) data['open'].add(1) 2 逻辑运算【知道】 2.1 逻辑运算符号 data["open"] > 23 # 逻辑判断的结果可以作为筛选的依据 data[data["open"] > 23].head() #完成多个逻辑阅读全文

posted @ 2021-09-10 17:23 Trouvaille_fighting 阅读(113) 评论(0) 推荐(0)

Pandas基本数据操作

摘要：1.索引操作【掌握】直接索引 -- 先列后行,是需要通过索引的字符串进行获取 # 获取'2018-02-27'这天的'close'的结果 # 获取从'2018-02-27':'2018-02-22'，'open'的结果 # 直接使用行列索引名字的方式（先列后行） data['open']['201 阅读全文

posted @ 2021-09-10 17:04 Trouvaille_fighting 阅读(66) 评论(0) 推荐(0)

Trouvaille

持续学习...

随笔分类 - 机器学习

公告