随笔分类 - 机器学习与数据分析
摘要:pandas入门—基本功能 138页 排序和排名 根据条件对数据集排序也是一种重要的内置运算。要对行或列索引进行排序(按字典顺序)(a,b,c,d),可使用sort_index()方法,它将返回一个已排序的新对象: 而对于DataFrame,则可以根据任意一个轴上的索引进行排序: 数据默认是按升序排
阅读全文
posted @ 2019-12-30 11:45
JasonPeng1
摘要:更详细的资料请看课程的课程资料哦! 数据分析的三大类型: 探索型:简单点说就是画图 验证型 预测型 探索型:数据收集—>数据处理—>数据清理 数据处理和数据清理是通过探索型的图表来进行相互对照,可以进行多次的 探索型数据分析作用: 通过探索型数据分析可以对下一步进行验证型数据分析以及预测型数据分析起
阅读全文
posted @ 2019-12-30 11:44
JasonPeng1
摘要:这里只选取视频中的部分,详细资料还是去Datacastle下载看吧 数据清理的一些内容: 格式转换: 比如Excel和数据库中关于时间的记录;它是字符串的格式来进行保存的,如果想对时间进行一些运算的话,就必须利用Python里的一些包。 缺失数据: 可以说是数据清理的最重要的一个问题。 那么,如何应
阅读全文
posted @ 2019-12-30 11:43
JasonPeng1
摘要:pandas的数据结构介绍 要使用pandas,你首先要熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有问题,但它们为大多数应用提供了一种可靠的、易于使用的基础 Series Series的字符串表现形式为:索引在左,值在右。由于我们没有为数据指定索引,于是会自动创
阅读全文
posted @ 2019-12-30 11:42
JasonPeng1
摘要:布尔型索引 将使用numpy.random中randn函数来生成一些正态分布的随机数据 此外,还可以将布尔型数组跟切片、整数混合使用 选取这三个名字中的两个需要组合应用多个布尔条件:使用&、|、之类的布尔运算符即可 通过布尔类型索引选取数组中的元素,将总是创建数据的副本,即使返回一模一样的数组也是如
阅读全文
posted @ 2019-12-30 11:41
JasonPeng1
摘要:NumPy的ndarray:一种多维数组对象 本章会介绍Numpy的基本用法,虽然大多数数据分析工作不需要深入理解NumPy,但是精通面向数组的编程和思维方式是成为Python科学计算牛人的一大关键步骤 创建ndarray 创建数组最简单的方法就是使用array函数。它接受一切序列型的对象(包括其他
阅读全文
posted @ 2019-12-30 11:40
JasonPeng1
摘要:https://blog.csdn.net/amao1998/article/details/80366286 #encoding=utf-8 import jieba import jieba.posseg as pseg import re filename='result.txt' filen
阅读全文
posted @ 2019-12-30 11:29
JasonPeng1
摘要:https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier 调整min_samples_split参数可以
阅读全文
posted @ 2019-12-30 11:26
JasonPeng1
摘要:一般是去除10%左右的数据。 GridSearchCV 用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数。它的好处是,只需增加几行代码,就能遍历多种组合。 下面是来自 sklearn 文档 的一个示例: parameters = {'kernel':('linear', 'rbf'), 'C
阅读全文
posted @ 2019-12-30 11:25
JasonPeng1
摘要:选择合适的指标 在构建机器学习模型时,我们首先要选择性能指标,然后测试模型的表现如何。相关的指标有多个,具体取决于我们要尝试解决的问题。 在可以选择性能指标之前,首先务必要认识到,机器学习研究的是如何学习根据数据进行预测。对于本课程和后续的“监督式机器学习”课程,我们将重点关注那些创建分类或创建预测
阅读全文
posted @ 2019-12-30 11:24
JasonPeng1
摘要:这个课程中没有介绍到的: 剪枝如何操作?ID3的算法的缺点是什么?如何改进?还有其他的算法没有?什么是基尼系数?和熵,信息增益有什么关系?Sklearn决策树算法中可以调节的参数有哪些? 吴恩达:机器学习:https://www.bilibili.com/video/av9912938/?p=60
阅读全文
posted @ 2019-12-30 11:21
JasonPeng1
摘要:为什么要化成这种形式? 这就是说明: 所以, = = SVM中最重要的是间隔!。
阅读全文
posted @ 2019-12-30 11:20
JasonPeng1
摘要:PCA的流程: 代码参考:https://www.cnblogs.com/clnchanpin/p/7199713.html 协方差矩阵的计算 https://docs.scipy.org/doc/numpy/reference/generated/numpy.cov.html 思想: https:
阅读全文
posted @ 2019-12-28 00:04
JasonPeng1
摘要:奇异值分解(Singular Value Decomposition,SVD)是一种重要的矩阵分解(Matrix Decomposition)方法,可以看做对称方正在任意矩阵上的一种推广,该方法在机器学习的中占有重要地位。 首先讲解一下SVD的理论,然后用python实现SVD,并应用于图像压缩。
阅读全文
posted @ 2019-12-28 00:03
JasonPeng1
摘要:吴恩达机器学习:https://www.bilibili.com/video/av9912938/?p=43 有一个很好的文章:https://blog.csdn.net/qq_39422642/article/details/78725278 https://blog.csdn.net/LeviA
阅读全文
posted @ 2019-12-28 00:00
JasonPeng1
摘要:一个比较好的学习资源: http://www.aibbt.com/a/21005.html 看完了优达学城的机器学习基础的课程,发现没有讲解具体怎么实现学习曲线和复杂度曲线的,这里还是需要自己去网上查一下。 http://www.aibbt.com/a/21443.html 原来C参数是这样来的!松
阅读全文
posted @ 2019-12-27 23:59
JasonPeng1
摘要:为什么要化成这种形式? 这就是说明: 所以, = = SVM中最重要的是间隔!。
阅读全文
posted @ 2019-12-27 23:58
JasonPeng1