02 2020 档案
摘要:有监督学习 常用分类算法 KNN:K近邻分类器。通过计算待分类数据点,与已知数据中所有点的距离,取距离最小的前K个点,根据"少数服从多数"的原则,将这个数据点划分为出现次数最多的那个类别。 在sklearn中,使用sklearn.neighbors.KNeighborsClassifier创建K邻近
阅读全文
摘要:聚类的实际应用,图像分割。 利用图像的特征将图像分割为多个不相重叠的区域。 常用的方法有阈值分割,边缘分割,直方图法,特定理论(基于聚类,小波分析等)。 实例:利用k means聚类算法对图像像素点颜色进行聚类以分割图像。 输出:同一聚类的点以相同颜色表示,不同聚类的像素点以不同的颜色表示。 用PI
阅读全文
摘要:降维 PCA算法及其应用 主成分分析(PCA),通常用于高维数据的探索与可视化。可以拔具有相关性的高维变量转化为线性无关的低维变量。称为主成分,能够尽可能保存原始数据的信息。 几个概念 方差:样本与样本均值的差的平方和的均值,用来度量一组数据的分散程度。 协方差:用于度量两个变量的线性相关程度。 特
阅读全文
摘要:北京理工大学在线课程: http://www.icourse163.org/course/BIT 1001872001 机器学习分类 监督学习 无监督学习 半监督学习 强化学习 深度学习 Scikit learn算法分类 sklearn自带的标准数据集 sklearn的六大任务:分类、回归、聚类、降
阅读全文
摘要:之前一段时间学习了线性回归,逻辑回归,支持向量机和朴素贝叶斯几个机器学习的算法,并用kaggle的泰坦尼克号问题做了实操。 我很早就想学习机器学习了,因为是非专业人士,一直畏难没有开始学习。拜疫情“所赐”,终于开始动手了。几个算法学下来,感觉并没有我想象那么难,当然那些数学推导我很多都没有看懂,但关
阅读全文
摘要:参考: https://blog.csdn.net/qian99/article/details/77916806 数据载入和清洗跟前面文章一样的。 进行朴素贝叶斯模型建模 模型评分: 0.7755331088664422 提交一下看看。 结果还不如之前的逻辑回归,支持向量机呢!尝试再改进一下看看,
阅读全文
摘要:随机试验:可重复性,可观察性,不确定性。 条件概率 P(B|A) = P(AB)/P(A),为事件A发生的条件下事件B的发生概率。 概率乘法公式: P(AB) = P(B|A)P(A) = P(A|B)P(B) 事件独立:两事件的发生没有影响。P(B|A) = P(B)。 P(AB) = P(B|A
阅读全文
摘要:用刚学的支持向量机来解决一下泰坦尼克号问题。 数据的载入,清洗完全跟之前的一样,直接复制粘贴。从建模开始。 代码 建模,使用SVM模型 划分训练集和测试集 结果 建模的结果 训练集: 0.9569288389513109 测试集: 0.6190476190476191 在测试集上效果不好啊。换个核函
阅读全文
摘要:因为新冠肺炎疫情,诊所还没复工。这是在家用手机敲的,代码显示有问题。等复工以后在电脑上改,各位先凑和看吧。 支持向量机(Support Vector Machine, SVM)是一种基于统计学习的模式识别的分类方法,主要用于模式识别。所谓支持向量指的是在分割区域边缘的训练样本点,机是指算法。就是要找
阅读全文
摘要:阿里云的课程有逻辑回归的内容的,学一下。 原理 分类变量:又称定性变量或离散变量,观察个体只能属于互不相容的类别中的一组。一般用非数字表达。与之相对的是定量变量或连续变量,变量具有数值特征。 常见的有有序变量(年龄等级,收入等级等),名义变量(性别,天气,职业等)。 自变量包含分类变量:名义变量通常
阅读全文
摘要:这次尝试用逻辑回归来解决泰坦尼克号的问题。本文参考了https://zhuanlan.zhihu.com/p/28408516 和 https://www.cnblogs.com/BYRans/p/4713624.html 逻辑回归(Logistic Regression)是一种用于解决二分类(0
阅读全文
摘要:用kaggle上的泰坦尼克的数据来实操。 https://www.kaggle.com/c/titanic/overview 在主页上下载了数据。 任务:使用泰坦尼克号乘客数据建立机器学习模型,来预测乘客在海难中是否生存。 在实际海难中,2224位乘客中有1502位遇难了。似乎有的乘客比其它乘客更有
阅读全文
摘要:如果模型包含了所有影响因素,称为全模型。如果只包含部分影响因素,称为选模型。 影响:①未选入的参数不全为0时,选模型的回归参数为有偏估计。②选模型的预测结果是有偏预测。③选模型的参数估计有较小的方差。④选模型的预测残差有较小的方差。⑤选模型预测的均方误差比全模型小。 自变量选择的准则: ①残差平方和
阅读全文
摘要:数据违背基本假设的处理 常见的问题:异方差,自相关,异常值。 异方差 指随机误差项的方差不是一个常数,而是随着自变量的取值变化而变化。 带来的问题:①使用最小二乘法(OLE)求解参数时,参数的估计值虽然无偏,但不是最小方差线性无偏估计。②参数的显著性检验无效。③回归方程的应用效果不理想。 产生原因:
阅读全文
摘要:理论模型 y = β0 + β1x1 + β2x2 + … + βpxp + ε 意义与一元线性回归相同。 E(y) = E(β0 + β1x1 + β2x2 + … + βpxp + ε) = y = β0 + β1x1 + β2x2 + … + βpxp 列线性方程组 y1 = β0 + β1x
阅读全文
摘要:变量之间的非确定性相关关系。 一般形式:y = f(x0,x1,x2,…xp)+ε 若为线性回归,y = β0+β1x1+β2x2+…+βnxn+ε β0,β1等为回归系数,ε为随机误差。 模型假设 ①零均值,ε均值为0 ②同方差,ε项方差为常数 ③无自相关性,ε项值之间无自相关性 ④正态分布,ε项
阅读全文
摘要:《量化投资:以python为工具》第五部分笔记 先来画k线图,要注意finance模块已经从matplotlib库中去除,现在要用mpl_finance库,单独安装。 其中有candlestick_ohlc函数,用来画k线图或者叫蜡烛图。函数接受的日期格式是浮点类型,接受的数据格式是列表型,要进行相
阅读全文
摘要:还是宅在家里,继续学习。 用真实的股票数据来实践一下刚学的时间序列分析的内容吧。分析一下我定投的两支股票:300etf(510300),纳指etf(513100)。 首先用tushare下载股价数据,时间范围从其创立到2020年1月31日。然后将数据处理后存入csv文件,再把下载数据的代码注释掉,以
阅读全文
摘要:用python进行时间序列分析。
阅读全文

浙公网安备 33010602011771号