10 2019 档案
摘要:明确: 算法是核心,数据和计算是基础 机器学习开发流程图: 机器学习模型是什么: 定义:通过一种映射关系从输入值到输出值 机器学习算法分类: 监督学习: 分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络 回归:线性回归、岭回归 标注:隐马尔可夫模型 无监督学习: 聚类 k-mea
阅读全文
摘要:特征选择: 特征选择的原因: 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有负影响 特征选择是什么: 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也可以不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一
阅读全文
摘要:爬取内容: 简书中每一篇文章的具体数据,主要包括文章标题、钻石数、发表日期、文章字数、文章阅读量、文章的评论量和点赞量等,这里爬取2000条左右保存至数据库 代码实现在文末! 分析思路: 首先,谷歌浏览器抓包,获取简书首页加载新文章的方式,当我们点击主页的加载更多的按钮的时候,后台发送了一个异步的P
阅读全文
摘要:特征处理是什么: 通过特定的统计方法(数学方法)将数据转化成为算法要求的数据 sklearn特征处理API: sklearn.preprocessing 代码示例: 文末! 归一化: 公式: 注意:作用于每一列,max为一列的最大值,min为一列的最小值,那么X''为最终结果,mx、mi分别为指定区
阅读全文
摘要:机器学习库scikit-learn,进行特征抽取 特征工程: 特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性 特征工程意义: 直接影响模型的预测结果 字典特征抽取: ['city=上海', 'city=北京', 'city=深圳', 'tempe
阅读全文

浙公网安备 33010602011771号