nnnnnnnnnnnnnnnn

sklearn上的svm

摘要： # coding: utf-8"""svm 四个核在iris上的测试"""import timeimport matplotlib as mplimport matplotlib.pyplot as pltfrom keras.utils import to_categoricalimport nu 阅读全文

posted @ 2020-01-06 11:13 nnnnnnnnnnnnnnnn 阅读(312) 评论(0) 推荐(0)

在iris上对比机器学习效率

摘要： # coding: utf-8"""在iris上对比机器学习效率"""import numpy as npimport pandas as pdimport lightgbm as lgb# SVC向量机from sklearn.ensemble import RandomForestClassi 阅读全文

posted @ 2020-01-06 11:12 nnnnnnnnnnnnnnnn 阅读(301) 评论(0) 推荐(0)

极度提升算法 xgboost

摘要： xgboot是个人认为最全能的机器学习算法核心思想是贪心策略+最优化（二次最优化）背包问题预测函数的loss最优一、 1. 分类：信息增益、信息增益率、基尼系数来判定树的节点分裂结果是类别 2.回归：预测误差，常用的有均方误差、对数误差等结果是数值二、bagging boosting 阅读全文

posted @ 2020-01-06 11:08 nnnnnnnnnnnnnnnn 阅读(743) 评论(0) 推荐(0)

随机森林

摘要：随机：一个是随机选取样本，一个是随机选取特征。 n 条数据，m个特征随机2/3 袋外误差：袋外样本做测试集造成的误差称为袋外误差 1/3 随机森林的思想：构建出优秀的树，优秀的树需要优秀的特征。那我们需要知道各个特征的重要程度。 1.每个特征在多棵数中出现，取这个特征值在多棵树中的重要程度的均值阅读全文

posted @ 2020-01-06 10:50 nnnnnnnnnnnnnnnn 阅读(473) 评论(0) 推荐(0)

lightgbm + tfidf 做自然语言处理分类算法

摘要： 1. 调参利用网格搜索利用普遍的范围去获得一个最优值 note： sparse_result = tfidf_model.transform(document) # 得到tf-idf矩阵，稀疏矩阵表示法 print(sparse_result) # (0, 3) 0.814802474667 # 阅读全文

posted @ 2020-01-06 10:39 nnnnnnnnnnnnnnnn 阅读(845) 评论(0) 推荐(0)

逻辑回归

摘要： 1. 回归就是计算回归系数，通过回归系数线性组合属性预测数值结果，回归以误差平方和最小为目的，其实是在假定误差服从高斯分布 2. LinearRegression：根据特征和对应标签生成回归模型 3. demo #!/usr/bin/env python3# -*- coding:utf8 -* 阅读全文

posted @ 2020-01-06 10:27 nnnnnnnnnnnnnnnn 阅读(387) 评论(0) 推荐(0)

文本聚类

摘要：聚类： 1.通过词袋向量进行聚类 a. word_vectors = model.wv.vectorsb. idx = KMeans(n_clusters=50, n_jobs=NUM_CORES)c. word_centroid_map = dict(zip(model.wv.index2wor 阅读全文

posted @ 2020-01-06 10:02 nnnnnnnnnnnnnnnn 阅读(511) 评论(0) 推荐(0)

用cnn做文本分类总结

摘要：总体路线：1. embeddding layers 》2.convolutional layer 》3.max-pooling 》4.softmax layer. 1.embedded 将每一个词语对应的向量合并成一个矩阵作用进行降维将维度从词的个数降成词向量的维度、建立词语之间的联系 vo 阅读全文

posted @ 2020-01-03 17:16 nnnnnnnnnnnnnnnn 阅读(551) 评论(0) 推荐(0)

sklearn

摘要：一、模块模块preprocessing：几乎包含数据预处理的所有内容模块Impute：填补缺失值专用模块feature_selection：包含特征选择的各种方法的实践模块decomposition：包含降维算法验证算法： sklearn.metrics print(classificat 阅读全文

posted @ 2019-12-30 14:05 nnnnnnnnnnnnnnnn 阅读(226) 评论(0) 推荐(0)

多类分类和多标签分类

摘要：多类分类类与类之间是互斥的 Multiclass classification 标签二值化后[0 0 0 0 1] 损失函数选择：categorical_crossentropy 最后的全dense层选择的激活函数：softmax 多标签分类类与类之间可以共同存在 Multi-label cla 阅读全文

posted @ 2019-12-25 13:52 nnnnnnnnnnnnnnnn 阅读(797) 评论(0) 推荐(0)