2020年1月6日

python的一些小技巧 慢慢更新

摘要: 1. 输出 a . print("%d %s" % (5, "ok")) b. '{1},{0},{1}'.format('ok',5) > ok 5 ok c print("ok", 5) 2. and or and 前真返后 or 前真返前 c = a > 0.5 and 1 or 0 # a 阅读全文

posted @ 2020-01-06 11:22 nnnnnnnnnnnnnnnn 阅读(274) 评论(0) 推荐(0)

sklearn上的svm

摘要: # coding: utf-8"""svm 四个核在iris上的测试"""import timeimport matplotlib as mplimport matplotlib.pyplot as pltfrom keras.utils import to_categoricalimport nu 阅读全文

posted @ 2020-01-06 11:13 nnnnnnnnnnnnnnnn 阅读(312) 评论(0) 推荐(0)

在iris上 对比机器学习效率

摘要: # coding: utf-8"""在iris上 对比机器学习效率"""import numpy as npimport pandas as pdimport lightgbm as lgb# SVC向量机from sklearn.ensemble import RandomForestClassi 阅读全文

posted @ 2020-01-06 11:12 nnnnnnnnnnnnnnnn 阅读(300) 评论(0) 推荐(0)

极度提升算法 xgboost

摘要: xgboot是个人认为最全能的机器学习算法 核心思想是贪心策略+最优化(二次最优化) 背包问题 预测函数的loss最优 一、 1. 分类:信息增益、信息增益率、基尼系数来判定树的节点分裂 结果是类别 2.回归:预测误差,常用的有均方误差、对数误差等 结果是数值 二、bagging boosting 阅读全文

posted @ 2020-01-06 11:08 nnnnnnnnnnnnnnnn 阅读(734) 评论(0) 推荐(0)

随机森林

摘要: 随机:一个是随机选取样本,一个是随机选取特征。 n 条数据 ,m个特征 随机2/3 袋外误差:袋外样本做测试集造成的误差称为袋外误差 1/3 随机森林的思想:构建出优秀的树,优秀的树需要优秀的特征。那我们需要知道各个特征的重要程度。 1.每个特征在多棵数中出现,取这个特征值在多棵树中的重要程度的均值 阅读全文

posted @ 2020-01-06 10:50 nnnnnnnnnnnnnnnn 阅读(471) 评论(0) 推荐(0)

lightgbm + tfidf 做自然语言处理 分类算法

摘要: 1. 调参利用网格搜索 利用普遍的范围 去获得一个最优值 note: sparse_result = tfidf_model.transform(document) # 得到tf-idf矩阵,稀疏矩阵表示法 print(sparse_result) # (0, 3) 0.814802474667 # 阅读全文

posted @ 2020-01-06 10:39 nnnnnnnnnnnnnnnn 阅读(836) 评论(0) 推荐(0)

逻辑回归

摘要: 1. 回归就是计算回归系数,通过回归系数线性组合属性预测数值结果,回归以误差平方和最小为目的,其实是在假定误差服从高斯分布 2. LinearRegression: 根据特征和对应标签 生成回归模型 3. demo #!/usr/bin/env python3# -*- coding:utf8 -* 阅读全文

posted @ 2020-01-06 10:27 nnnnnnnnnnnnnnnn 阅读(386) 评论(0) 推荐(0)

文本聚类

摘要: 聚类: 1.通过词袋向量 进行聚类 a. word_vectors = model.wv.vectorsb. idx = KMeans(n_clusters=50, n_jobs=NUM_CORES)c. word_centroid_map = dict(zip(model.wv.index2wor 阅读全文

posted @ 2020-01-06 10:02 nnnnnnnnnnnnnnnn 阅读(509) 评论(0) 推荐(0)

导航