会员
周边
众包
新闻
博问
闪存
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
仰望星空-脚踏实地
人所有的痛苦都是源于对自己无能的愤怒
博客园
首页
新随笔
联系
管理
订阅
随笔分类 -
数据分析与机器学习实战
机器学习相关的一些知识,重新梳理一遍
K-means算法
摘要:K-means 聚类算法 无监督问题,我们手里没有标签 聚类:相似的东西分到一组 难点:如何评估,如何调参 基本概念 要得到簇的个数,需要制定K值 质心:均值,各个维度取平均即可 距离的度量:常用的欧几里得距离或者与余弦相似度(先标准化) 优化目标:一共有多少个簇,让每一个样本到簇中心点的距离越小越
阅读全文
posted @
2020-06-12 09:54
心远志高
阅读(124)
评论(0)
推荐(0)
支持向量机-SVC
摘要:支持向量机 支持向量机是比较有效的机器学习算法,通过找到支持向量,找到最大的决策边界。 from sklearn.datasets import make_blobs import numpy as np import pandas as pd import matplotlib.pyplot as
阅读全文
posted @
2020-06-11 15:10
心远志高
阅读(641)
评论(0)
推荐(0)
贝叶斯-实现新闻数据分类
摘要:用贝叶斯实现新闻分类 重点,停用词的去除,词向量的构建, TF-IDF原理 停用词可以通过停用词表进行去除 词向量构建,本文是通过简单的词频模型,来构建词向量 IF-IDF 通过词频和关键词提取,来判断一个单词出现的重要性 import pandas as pd import jieba pd.se
阅读全文
posted @
2020-06-10 10:52
心远志高
阅读(607)
评论(0)
推荐(0)
贝叶斯-使用贝叶斯实现拼写检查器
摘要:基于贝叶斯实现拼写检查器 简单,容易,效果好 贝叶斯是一种常见的分类算法,通过先验概率和估计实现后验概率的计算 难点主要是,在单词错误的情况下,估计正确的单词的概率 难点是通过键盘距离可以评估出在输入正确的情况下,输错的概率分布 import re, collections # 求解 argmax
阅读全文
posted @
2020-06-10 10:45
心远志高
阅读(459)
评论(0)
推荐(0)
泰坦尼克求胜率预测-基于随机森林实现
摘要:泰坦尼克是一个经典的机器学习数据集,通过决策树对特征进行筛选,获得较大的特征 import pandas as pd pd.set_option('display.max_columns', None) #显示完整的列 # pd.set_option('display.max_rows', None
阅读全文
posted @
2020-06-09 17:46
心远志高
阅读(374)
评论(0)
推荐(0)
决策树算法-Python实现
摘要:决策树比较常用的算法模型,可以做分类也可以回归 决策树算法重点 对特征的选择,可以使用熵,也可以使用基尼系数,通过信息增益或者信息增益率选择最好的特征 决策树的剪枝,有两种策略,一种是预剪枝,一种是后剪枝,预剪枝可以通过限制树的高度,叶子节点个数,信息增益等进行,使得树边建立边剪枝,后剪枝通过增加损
阅读全文
posted @
2020-06-09 11:09
心远志高
阅读(1149)
评论(0)
推荐(0)
信用卡欺诈模型-逻辑回归
摘要:信用卡欺诈的模型 难点: 数据不均衡,有两种解决方案,一种是过采样和一种是下采样 过采样是对多的数据进行筛选,使得两种数据数量相同 下采样,通过对少的数据进行数据生成,使得两种数据数量相同 import pandas as pd import matplotlib.pyplot as plt imp
阅读全文
posted @
2020-06-08 11:10
心远志高
阅读(551)
评论(0)
推荐(0)
用python实习逻辑回归
摘要:建立一个逻辑回归模型来预测一个学生是否被大学录取 # 三大件 import numpy as np import pandas as pd import matplotlib.pyplot as plt import os path = 'data' + os.sep + 'LogiReg_data
阅读全文
posted @
2020-06-08 10:21
心远志高
阅读(213)
评论(0)
推荐(0)
Seaborn可视化常见操作
摘要:主要是Seaborn常见的操作 Seaborn 基础用法 import seaborn as sns import numpy as np import matplotlib.pyplot as plt def sinplot(flip=1): x = np.linspace(0, 14, 100)
阅读全文
posted @
2020-06-05 14:46
心远志高
阅读(479)
评论(0)
推荐(0)
可视化-Matplotlib的常见用法
摘要:Matplotlib常见的用法 import pandas as pd import numpy as np unrate = pd.read_csv('UNRATE.csv') unrate['DATE'] = pd.to_datetime(unrate['DATE']) print(unrate
阅读全文
posted @
2020-06-05 09:06
心远志高
阅读(248)
评论(0)
推荐(0)
pandas常用语法
摘要:常见的一些pandas的使用方法 import pandas as pd food_info = pd.read_csv('food_info.csv') print(type(food_info)) print(food_info.dtypes) # print(help(pd.read_csv)
阅读全文
posted @
2020-05-30 09:00
心远志高
阅读(548)
评论(0)
推荐(0)
Numpy常见的语法
摘要:Numpy 学习的一些常见语法,然后进行不断的扩充 学习环境是Pycharm, 所需要的资料可以私信我 world_alcohol = np.genfromtxt('world_alcohol.txt', delimiter=',', dtype=str) print(type(world_alco
阅读全文
posted @
2020-05-26 10:53
心远志高
阅读(168)
评论(0)
推荐(0)
公告