2020年1月6日

sklearn上的svm

摘要: # coding: utf-8"""svm 四个核在iris上的测试"""import timeimport matplotlib as mplimport matplotlib.pyplot as pltfrom keras.utils import to_categoricalimport nu 阅读全文

posted @ 2020-01-06 11:13 nnnnnnnnnnnnnnnn 阅读(312) 评论(0) 推荐(0)

在iris上 对比机器学习效率

摘要: # coding: utf-8"""在iris上 对比机器学习效率"""import numpy as npimport pandas as pdimport lightgbm as lgb# SVC向量机from sklearn.ensemble import RandomForestClassi 阅读全文

posted @ 2020-01-06 11:12 nnnnnnnnnnnnnnnn 阅读(300) 评论(0) 推荐(0)

极度提升算法 xgboost

摘要: xgboot是个人认为最全能的机器学习算法 核心思想是贪心策略+最优化(二次最优化) 背包问题 预测函数的loss最优 一、 1. 分类:信息增益、信息增益率、基尼系数来判定树的节点分裂 结果是类别 2.回归:预测误差,常用的有均方误差、对数误差等 结果是数值 二、bagging boosting 阅读全文

posted @ 2020-01-06 11:08 nnnnnnnnnnnnnnnn 阅读(734) 评论(0) 推荐(0)

随机森林

摘要: 随机:一个是随机选取样本,一个是随机选取特征。 n 条数据 ,m个特征 随机2/3 袋外误差:袋外样本做测试集造成的误差称为袋外误差 1/3 随机森林的思想:构建出优秀的树,优秀的树需要优秀的特征。那我们需要知道各个特征的重要程度。 1.每个特征在多棵数中出现,取这个特征值在多棵树中的重要程度的均值 阅读全文

posted @ 2020-01-06 10:50 nnnnnnnnnnnnnnnn 阅读(471) 评论(0) 推荐(0)

lightgbm + tfidf 做自然语言处理 分类算法

摘要: 1. 调参利用网格搜索 利用普遍的范围 去获得一个最优值 note: sparse_result = tfidf_model.transform(document) # 得到tf-idf矩阵,稀疏矩阵表示法 print(sparse_result) # (0, 3) 0.814802474667 # 阅读全文

posted @ 2020-01-06 10:39 nnnnnnnnnnnnnnnn 阅读(836) 评论(0) 推荐(0)

逻辑回归

摘要: 1. 回归就是计算回归系数,通过回归系数线性组合属性预测数值结果,回归以误差平方和最小为目的,其实是在假定误差服从高斯分布 2. LinearRegression: 根据特征和对应标签 生成回归模型 3. demo #!/usr/bin/env python3# -*- coding:utf8 -* 阅读全文

posted @ 2020-01-06 10:27 nnnnnnnnnnnnnnnn 阅读(385) 评论(0) 推荐(0)

文本聚类

摘要: 聚类: 1.通过词袋向量 进行聚类 a. word_vectors = model.wv.vectorsb. idx = KMeans(n_clusters=50, n_jobs=NUM_CORES)c. word_centroid_map = dict(zip(model.wv.index2wor 阅读全文

posted @ 2020-01-06 10:02 nnnnnnnnnnnnnnnn 阅读(509) 评论(0) 推荐(0)

2020年1月3日

用cnn做文本分类总结

摘要: 总体路线 :1. embeddding layers 》2.convolutional layer 》3.max-pooling 》4.softmax layer. 1.embedded 将每一个词语对应的向量合并成一个矩阵 作用 进行降维 将维度从词的个数降成词向量的维度、建立词语之间的联系 vo 阅读全文

posted @ 2020-01-03 17:16 nnnnnnnnnnnnnnnn 阅读(550) 评论(0) 推荐(0)

2019年12月30日

sklearn

摘要: 一、模块 模块preprocessing:几乎包含数据预处理的所有内容 模块Impute:填补缺失值专用 模块feature_selection:包含特征选择的各种方法的实践 模块decomposition:包含降维算法 验证算法: sklearn.metrics print(classificat 阅读全文

posted @ 2019-12-30 14:05 nnnnnnnnnnnnnnnn 阅读(224) 评论(0) 推荐(0)

2019年12月25日

多类分类和多标签分类

摘要: 多类分类 类与类之间是互斥的 Multiclass classification 标签二值化后[0 0 0 0 1] 损失函数选择:categorical_crossentropy 最后的全dense层选择的激活函数:softmax 多标签分类 类与类之间可以共同存在 Multi-label cla 阅读全文

posted @ 2019-12-25 13:52 nnnnnnnnnnnnnnnn 阅读(789) 评论(0) 推荐(0)

导航