随笔档案「2020年1月6日」：python的一些小技巧慢慢更新 ... - nnnnnnnnnnnnnnnn

python的一些小技巧慢慢更新

摘要： 1. 输出 a . print("%d %s" % (5, "ok")) b. '{1},{0},{1}'.format('ok',5) > ok 5 ok c print("ok", 5) 2. and or and 前真返后 or 前真返前 c = a > 0.5 and 1 or 0 # a 阅读全文

posted @ 2020-01-06 11:22 nnnnnnnnnnnnnnnn 阅读(276) 评论(0) 推荐(0)

sklearn上的svm

摘要： # coding: utf-8"""svm 四个核在iris上的测试"""import timeimport matplotlib as mplimport matplotlib.pyplot as pltfrom keras.utils import to_categoricalimport nu 阅读全文

posted @ 2020-01-06 11:13 nnnnnnnnnnnnnnnn 阅读(312) 评论(0) 推荐(0)

在iris上对比机器学习效率

摘要： # coding: utf-8"""在iris上对比机器学习效率"""import numpy as npimport pandas as pdimport lightgbm as lgb# SVC向量机from sklearn.ensemble import RandomForestClassi 阅读全文

posted @ 2020-01-06 11:12 nnnnnnnnnnnnnnnn 阅读(301) 评论(0) 推荐(0)

极度提升算法 xgboost

摘要： xgboot是个人认为最全能的机器学习算法核心思想是贪心策略+最优化（二次最优化）背包问题预测函数的loss最优一、 1. 分类：信息增益、信息增益率、基尼系数来判定树的节点分裂结果是类别 2.回归：预测误差，常用的有均方误差、对数误差等结果是数值二、bagging boosting 阅读全文

posted @ 2020-01-06 11:08 nnnnnnnnnnnnnnnn 阅读(743) 评论(0) 推荐(0)

随机森林

摘要：随机：一个是随机选取样本，一个是随机选取特征。 n 条数据，m个特征随机2/3 袋外误差：袋外样本做测试集造成的误差称为袋外误差 1/3 随机森林的思想：构建出优秀的树，优秀的树需要优秀的特征。那我们需要知道各个特征的重要程度。 1.每个特征在多棵数中出现，取这个特征值在多棵树中的重要程度的均值阅读全文

posted @ 2020-01-06 10:50 nnnnnnnnnnnnnnnn 阅读(473) 评论(0) 推荐(0)

lightgbm + tfidf 做自然语言处理分类算法

摘要： 1. 调参利用网格搜索利用普遍的范围去获得一个最优值 note： sparse_result = tfidf_model.transform(document) # 得到tf-idf矩阵，稀疏矩阵表示法 print(sparse_result) # (0, 3) 0.814802474667 # 阅读全文

posted @ 2020-01-06 10:39 nnnnnnnnnnnnnnnn 阅读(845) 评论(0) 推荐(0)

逻辑回归

摘要： 1. 回归就是计算回归系数，通过回归系数线性组合属性预测数值结果，回归以误差平方和最小为目的，其实是在假定误差服从高斯分布 2. LinearRegression：根据特征和对应标签生成回归模型 3. demo #!/usr/bin/env python3# -*- coding:utf8 -* 阅读全文

posted @ 2020-01-06 10:27 nnnnnnnnnnnnnnnn 阅读(387) 评论(0) 推荐(0)

文本聚类

摘要：聚类： 1.通过词袋向量进行聚类 a. word_vectors = model.wv.vectorsb. idx = KMeans(n_clusters=50, n_jobs=NUM_CORES)c. word_centroid_map = dict(zip(model.wv.index2wor 阅读全文

posted @ 2020-01-06 10:02 nnnnnnnnnnnnnnnn 阅读(511) 评论(0) 推荐(0)

nnnnnnnnnnnnnnnn