随笔分类 -  机器学习

摘要:一、数据格式 1.1 libffm数据格式定义 为了使用FM/FFM方法,所有的特征必须转换成“field_id:feat_id:value”类型的libffm格式,field_id代表特征所属field的编号,feat_id是特征编号,value是特征的值。注意第一列插入为target值。 数值型 阅读全文
posted @ 2019-12-03 23:39 BlowingInTheWind 阅读(782) 评论(0) 推荐(0)
摘要:一、算法原理 LR算法:通过线性映射和sigmoid转换确定{0,1}间条件概率。 1.1 模型表达(Objective Function) 逻辑回归也被称为对数几率回归,用条件概率分布的形式表示 P(Y|X),这里随机变量 X 取值为 n 维特征向量,例如x=(x(1),x(2),...,x(n) 阅读全文
posted @ 2019-11-29 15:46 BlowingInTheWind 阅读(1259) 评论(0) 推荐(0)
摘要:一、算法原理 KNN算法是机器学习中最基本算法之一,属于惰性学习算法的典例。惰性指模型仅通过对训练数据集的记忆功能进行预测,而不产生判别函数。 KNN算法本身很简单,归纳为如下几步:①选择近邻数量k和距离度量的方法②找到待分类样本的k个最近邻③根据最近邻类标进行多数投票 二、超参数(结合sklear 阅读全文
posted @ 2019-11-28 22:26 BlowingInTheWind 阅读(492) 评论(0) 推荐(0)
摘要:数据标准化是数据预处理的重要步骤。 sklearn.preprocessing下包含 StandardScaler, MinMaxScaler, RobustScaler三种数据标准化方法。本文结合sklearn文档,对各个标准化方法的应用场景以及优缺点加以总结概括。 首先,不同类型的机器学习模型对 阅读全文
posted @ 2019-11-25 22:29 BlowingInTheWind 阅读(4344) 评论(0) 推荐(0)