随笔分类 - 机器学习
摘要:机器学习【一】K最近邻算法 涉及内容: 分类——————数据集生成器、KNN拟合数据 多元分类————生成数据集、KNN拟合 回归分析————用于回归分析的数据集生成器、KNN拟合、调整近邻数 KNN实战—酒的分类————数据集有哪些键、生成训练集和测试集、KNN拟合、新样本的分类进行预测 不适用:
阅读全文
摘要:使用Requests进行网页爬取 使用BeautifulSoup进行HTML解析 正则表达式入门 使用潜在狄利克雷分布模型解析话题提取
阅读全文
摘要:文本数据的特征提取 中文文本的分词方法 用n-Garm模型优化文本数据 使用tf-idf模型改善特征提取 停用词
阅读全文
摘要:书上数据集无法获得,所以,拍照之...... 整理数据集: 删除无效数值 去掉冗余信息 考虑是否把字符串类型的特征通过get_dummies转化成整型数值 (3421,23)(3421,) 【结果分析】 数据集加载成功,共有3421支股票,每支股票包含23个特征 尝试用MLP多层感知神经网络回归分析
阅读全文
摘要:交叉验证法 网格搜索法 分类模型的可行度评估 .score评分方法
阅读全文
摘要:get_dummies 装箱 交互式特征 多项式特征 单一变量法 基于模型的特征选择 迭代式特征选择
阅读全文
摘要:数据预处理 先手工生成一些数据,用来说明数据预处理的原理和方法 【结果分析】 在使用make_blobs函数时,指定了样本数量n_samples=40,分类centers=2,随机状态random_state=50,标注差cluster_std=2 1.使用StandardScaler预处理数据 原
阅读全文
摘要:本章重点介绍“多层感知器”,即MLP算法 MLP也称为前馈神经网络,泛称为神经网络 原理 神经网络中的非线性矫正 在生成隐藏层后,对 结果进行非线性矫正 rele 或进行双曲正切处理 tanh 通过这两种方式处理后的结果用来计算最终结果y 用图像展示: import numpy as np#导入画图
阅读全文
摘要:SVM原理 线性可分与线性不可分 线性可分 线性不可分 【无论用哪条直线都无法将女生情绪正确分类】 SVM的核函数可以帮助我们: 假设‘开心’是轻飘飘的,“不开心”是沉重的 将三维视图还原成二维: 刚利用“开心”“不开心”的重量差实现将二维数据变成三维的过程,称为将数据投射至高维空间,这正是核函数的
阅读全文
摘要:是一种集合学习算法,可以用于分类,也可以用于回归 集合学习算法,就是把多个机器学习算法综合在一块,制造出一个更加大的模型的意思 集合算法有很多种:随机森林+梯度上升决策树等 为什么随机森林可以解决过拟合问题? 把不同的几棵决策树打包到一起,每棵树的参数都不相同,然后把每棵树预测的结果取平均值,这样既
阅读全文
摘要:Numpy Scipy Pandas Matplotlib 简介
阅读全文