随笔分类 - 机器学习
摘要:任务合集 1 任务1 1.1 读取比赛数据集 import pandas as pd import numpy as np # 1 获取数据集 train_df=pd.read_csv('data/face/train.csv') #数据集的地址 # 2 读取训练集图片数据,维度为96*96&500
阅读全文
摘要:数据报告 国家统计局(www.stats.gov.cn) 官方平台,数据资源十分丰富,涵盖了经济、工业、全国普查、生产资料、就业人员平均工资等情况的数据。一般来说,这个网站能满足同学们获取数据报告的大部分需求。此外,更贴心的是,网站的最底部还可以链接到地方统计网站、地方政府网站以及国外统计网站等。对
阅读全文
摘要:1 比赛 常见名词: Feature 特征变量,也叫自变量,是样本可以观测到的特征,通常是模型的输入。 Label 标签,也叫目标变量,需要预测的变量,通常是模型的标签或者输出。 Train Data 训练数据,有标签的数据,由举办方提供。 Test Data 测试数据,标签未知,是比赛用来评估得分
阅读全文
摘要:探究用户对物品类别的喜好细分 应用pca和K-means实现用户对物品类别的喜好细分划分 数据如下: order_products__prior.csv:订单与商品信息 字段:order_id, product_id, add_to_cart_order, reordered products.cs
阅读全文
摘要:1 各个领域的数据集 一、自动驾驶领域数据集 二、目标检测数据集 三、人脸识别类数据集 四、人体姿态估计类数据集 五、文本检测类数据集 六、NLP数据集 七、医学类数据集 https://mp.weixin.qq.com/s/Q8HAi08dce5dvSz1WGcqAA 2 交通领域开源数据集 NG
阅读全文
摘要:1 什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证。 1.1 分析 为了让从训练得到模型结
阅读全文
摘要:1 数据集 2 方法 sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') algorithm(auto,ball_tree, kd_tree, brute) -- 选择什么样的算法进行计算 3 案例实现 导入模
阅读全文
摘要:1 案例:鸢尾花种类预测 Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。 2 scikit-learn中数据集介绍 获取数据集的方式 sklearn.datasets.load_*() 加载小规模数据集 sklearn.datasets.fetch_*(data_home=None,sub
阅读全文
摘要:1 Scikit-learn工具介绍 目前稳定版本0.19.1 1.1 安装 pip3 install scikit-learn==0.19.1 查看是否安装成功 import sklearn 注:安装scikit-learn需要Numpy, Scipy等库 1.2 Scikit-learn包含的内
阅读全文
摘要:1 项目描述 背景:Facebook创建了一个虚拟世界,其中包括10公里*10公里共100平方公里的约10万个地方。对于给定的坐标集,您的任务将根据用户的位置,准确性和时间戳等预测用户下一次的签到位置。数据被制作成类似于来自移动设备的位置数据。 目标:预测一个人将要签到的地方 2 数据集介绍 文件说
阅读全文
摘要:1 问题描述 表述当前模型的输入应为二维数组,而得到的是一维数组 2 解决方法 2.1 使用array调整数据的形状,如果如果数据有单个功能或数组,则重新调整形状(-1,1)。如果数据包含单个示例,则重新调整形状(1,-1)。 new_x = np.array(new_x).reshape(1, -
阅读全文
摘要:1 分组API DataFrame.groupby(key, as_index=False) key:分组的列数据,可以多个 案例:不同颜色的不同笔的价格数据 col =pd.DataFrame({'color': ['white','red','green','red','green'], 'ob
阅读全文
摘要:1 概念 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表) pd.crosstab(value1, value2) 透视表:透视表是将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数 data.pivot_table() Data
阅读全文
摘要:1 pd.concat实现数据合并 pd.concat([data1, data2], axis=1) 按照行或列进行合并,axis=0为列索引,axis=1为行索引 # 按照行索引进行 pd.concat([data, dummies], axis=1) 2 pd.merge合并 pd.merge
阅读全文
摘要:1 什么是数据离散化 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。 qcut、cut实现数据分组【知道】 qcut:大致分为相同的几组 cut:自定义分组区间 get_dummies:实现哑变量矩阵 2 股票的涨跌幅离
阅读全文
摘要:1 处理缺失值NAN的方法 获取缺失值的标记方式(NaN或者其他标记方式) 如果缺失值的标记方式是NaN,判断数据中是否包含NaN: pd.isnull(df) pd.notnull(df) np.any(pd.isnull(movie)) # 里面如果有一个缺失值,就返回True np.all(p
阅读全文
摘要:1 CSV 1.1 read_csv pandas.read_csv(文件路径, sep =',', 指定读取的列名) sep表示分隔符,默认用","隔开 # 读取文件,并且指定只获取'open', 'close'指标 data = pd.read_csv("./data/stock_day.csv
阅读全文
摘要:1.pandas.DataFrame.plot DataFrame.plot(kind='line') kind=line(折线性) bar(垂直条图) barth(水平条图) hist(柱状图) pie(饼图) scatter plot (散点图) 2. pandas.Series.plot
阅读全文
摘要:1 算术运算【知道】 add(other) sub(other) data['open'].add(1) 2 逻辑运算【知道】 2.1 逻辑运算符号 data["open"] > 23 # 逻辑判断的结果可以作为筛选的依据 data[data["open"] > 23].head() #完成多个逻辑
阅读全文
摘要:1.索引操作【掌握】 直接索引 -- 先列后行,是需要通过索引的字符串进行获取 # 获取'2018-02-27'这天的'close'的结果 # 获取从'2018-02-27':'2018-02-22','open'的结果 # 直接使用行列索引名字的方式(先列后行) data['open']['201
阅读全文