做梦当财神

2021年5月26日

摘要：特征选择（2） 1.选择合适的特征特征集合有时会很大，在尝试降维之前，有必要用特征工程的方法选择较为重要的特征集合。最简单的方法就是方差筛选。方差越大的特征，认为特征越重要。方差较小，比如小于1，认为特征可能对算法没什么作用。最极端的，特征方差为0，即所有的样本在该特征的取值都是一样的，那么它对阅读全文

posted @ 2021-05-26 21:50 做梦当财神阅读(425) 评论(0) 推荐(0)

2021年5月17日

sklearn.preprocessing.OneHotEncoder

摘要： 1.概要 sklearn.preprocessing.OneHotEncoder，将类别变量、顺序变量转化为二值化的标志变量。 2. 解析格式： OneHotEncoder(n_values=’auto’, categorical_features=’all’, dtype=<class ‘num 阅读全文

posted @ 2021-05-17 17:42 做梦当财神阅读(1525) 评论(0) 推荐(0)

2021年4月18日

朴素贝叶斯法

摘要：朴素贝叶斯（Nave Bayes）法是基于贝叶斯定理与特征条件独立假设的分类算法。它的思想可以概括为先验概率+数据=后验概率。 1.朴素贝叶斯模型下面是分类模型样本：假设有m个样本，每个样本有n个特征，特征输出有K个类别，定义为从样本得到朴素贝叶斯的先验分布，接着得到条件概率分布，然后用贝阅读全文

posted @ 2021-04-18 12:54 做梦当财神阅读(384) 评论(0) 推荐(0)

机器学习中生成式模型 VS 判别式模型

摘要： 1. 前言判别式模型：只有一个模型，把测试数据往里一丢，结果就出来了。如 SVM。生成式模型：有多个模型（一般有多少类就有多少个），把测试数据丢到各个模型里面，最后比较结果，选择最优的最为结果。如朴素贝叶斯。 2.基本概念判别模型，就是判别（数据输出量）的模型。生成模型，就是生成（数据的分阅读全文

posted @ 2021-04-18 09:10 做梦当财神阅读(425) 评论(0) 推荐(0)

2021年4月15日

Linux cut 命令

摘要： grep命令提取符合条件的行，cut命令提取符合条件的列。 [kirk@kirk shell]$ cut [选项] 文件名选项： -f 列号：提取第几列 -d 分隔符：按照指定分隔符分割列 -c 字符范围：不依赖分隔符来区分列，而是通过字符范围（行首为 0）来进行字段提取。 “n-”表示从第阅读全文

posted @ 2021-04-15 18:36 做梦当财神阅读(618) 评论(0) 推荐(0)

2020年7月29日

Linux 系统分区（一）

摘要： Linux的主分区与拓展分区加起来不能超过4个，而且拓展分区最多一个且不能放入数据文件及不能格式化，拓展分区唯一作用就是包含逻辑分区，逻辑分区可以放入数据和格式化。这种限制不是Linux限制，而是硬盘本身的限制。分区过程就是将大硬盘分成小硬盘，此时小硬盘不能直接使用，必须先格式化。格式化（高级格阅读全文

posted @ 2020-07-29 11:07 做梦当财神阅读(249) 评论(0) 推荐(0)

Linux 系统启动过程（二）

摘要： Linux启动时会看到许多启动信息。 Linux启动过程分为5个阶段：内核的引导运行init 系统初始化建立终端用户登录信息内核引导当计算机打开电源后，首先是BIOS（Basic Input/Output System）开机自检，按照BIOS中设置的启动设备（通常是硬盘）来启动。操作系阅读全文

posted @ 2020-07-29 02:01 做梦当财神阅读(275) 评论(0) 推荐(0)

Linux 系统目录结构（三）

摘要：基本介绍登录系统后，输入命令： ls/ 结果如下： Linux的文件系统是级层式的树状目录结构，最上层是根目录“/”，然后在此目录下创建其他目录。 Linux的世界里，一切皆文件。 Linux具体目录结构 /lib 系统开机所需要最基本的动态链接共享库，其类似于Windows里的DLL文件。 /l 阅读全文

posted @ 2020-07-29 01:02 做梦当财神阅读(273) 评论(0) 推荐(0)

2020年7月27日

cross_val_score

摘要：交叉检验原理使用交叉检验最简单的方法是在估计器上调用cross_val_score函数。下面示例展示如何通过分割数据，拟合模型和计算连续5次的分数（每次不同分割）来估计linear Kernel支持向量机在iris数据集上的精度： from sklearn.model_selection imp 阅读全文

posted @ 2020-07-27 17:28 做梦当财神阅读(5204) 评论(0) 推荐(0)

2020年7月23日

sklearn.pipeline.Pileline

摘要： 1. sklearn中的Pipeline机制管道机制在机器学习算法中的应用：参数集在新数据集（比如测试集）上的重复使用。管道机制实现流式化封装和管理。 2. 加载数据集并拆分 import pandas as pd from sklearn.pipeline import Pipeline fr 阅读全文

posted @ 2020-07-23 12:19 做梦当财神阅读(309) 评论(0) 推荐(0)

公告