2020 年 6月随笔档案 - 心远志高

K-means算法

摘要：K-means 聚类算法无监督问题，我们手里没有标签聚类：相似的东西分到一组难点：如何评估，如何调参基本概念要得到簇的个数，需要制定K值质心：均值，各个维度取平均即可距离的度量：常用的欧几里得距离或者与余弦相似度（先标准化）优化目标：一共有多少个簇，让每一个样本到簇中心点的距离越小越阅读全文

posted @ 2020-06-12 09:54 心远志高阅读(129) 评论(0) 推荐(0)

支持向量机-SVC

摘要：支持向量机支持向量机是比较有效的机器学习算法，通过找到支持向量，找到最大的决策边界。 from sklearn.datasets import make_blobs import numpy as np import pandas as pd import matplotlib.pyplot as 阅读全文

posted @ 2020-06-11 15:10 心远志高阅读(643) 评论(0) 推荐(0)

贝叶斯-实现新闻数据分类

摘要：用贝叶斯实现新闻分类重点，停用词的去除，词向量的构建， TF-IDF原理停用词可以通过停用词表进行去除词向量构建，本文是通过简单的词频模型，来构建词向量 IF-IDF 通过词频和关键词提取，来判断一个单词出现的重要性 import pandas as pd import jieba pd.se 阅读全文

posted @ 2020-06-10 10:52 心远志高阅读(614) 评论(0) 推荐(0)

贝叶斯-使用贝叶斯实现拼写检查器

摘要：基于贝叶斯实现拼写检查器简单，容易，效果好贝叶斯是一种常见的分类算法，通过先验概率和估计实现后验概率的计算难点主要是，在单词错误的情况下，估计正确的单词的概率难点是通过键盘距离可以评估出在输入正确的情况下，输错的概率分布 import re, collections # 求解 argmax 阅读全文

posted @ 2020-06-10 10:45 心远志高阅读(467) 评论(0) 推荐(0)

泰坦尼克求胜率预测-基于随机森林实现

摘要：泰坦尼克是一个经典的机器学习数据集，通过决策树对特征进行筛选，获得较大的特征 import pandas as pd pd.set_option('display.max_columns', None) #显示完整的列 # pd.set_option('display.max_rows', None 阅读全文

posted @ 2020-06-09 17:46 心远志高阅读(377) 评论(0) 推荐(0)

决策树算法-Python实现

摘要：决策树比较常用的算法模型，可以做分类也可以回归决策树算法重点对特征的选择，可以使用熵，也可以使用基尼系数，通过信息增益或者信息增益率选择最好的特征决策树的剪枝，有两种策略，一种是预剪枝，一种是后剪枝，预剪枝可以通过限制树的高度，叶子节点个数，信息增益等进行，使得树边建立边剪枝，后剪枝通过增加损阅读全文

posted @ 2020-06-09 11:09 心远志高阅读(1156) 评论(0) 推荐(0)

SQL_牛客网60题

摘要：1.查找最晚入职员工的所有信息，为了减轻入门难度，目前所有的数据里员工入职的日期都不是同一天 SELECT * FROM employees ORDER BY hire_date DESC LIMIT 1 2.查找入职员工时间排名倒数第三的员工所有信息，为了减轻入门难度，目前所有的数据里员工入职的日阅读全文

posted @ 2020-06-08 18:05 心远志高阅读(419) 评论(0) 推荐(0)

信用卡欺诈模型-逻辑回归

摘要：信用卡欺诈的模型难点：数据不均衡，有两种解决方案，一种是过采样和一种是下采样过采样是对多的数据进行筛选，使得两种数据数量相同下采样，通过对少的数据进行数据生成，使得两种数据数量相同 import pandas as pd import matplotlib.pyplot as plt imp 阅读全文

posted @ 2020-06-08 11:10 心远志高阅读(560) 评论(0) 推荐(0)

用python实习逻辑回归

摘要：建立一个逻辑回归模型来预测一个学生是否被大学录取 # 三大件 import numpy as np import pandas as pd import matplotlib.pyplot as plt import os path = 'data' + os.sep + 'LogiReg_data 阅读全文

posted @ 2020-06-08 10:21 心远志高阅读(223) 评论(0) 推荐(0)

SQL必会50题

摘要：根据知乎进行练习, 有些还是有点难度链接https://zhuanlan.zhihu.com/p/43289968 -- 1.查询课程编号为“01”的课程比“02”的课程成绩高的所有学生的学号（重点） USE sql_test; SELECT a.s_id, a.s_score AS '01', 阅读全文

posted @ 2020-06-05 14:51 心远志高阅读(608) 评论(0) 推荐(0)

SQL面试必会50题-训练数据

摘要：根据知乎面试必会50题进行练习, 这是本次的数据集 https://zhuanlan.zhihu.com/p/43289968 -- 建表 -- 学生表 CREATE DATABASE sql_test; USE sql_test; CREATE TABLE `Student`( `s_id` VA 阅读全文

posted @ 2020-06-05 14:49 心远志高阅读(501) 评论(0) 推荐(0)

Seaborn可视化常见操作

摘要：主要是Seaborn常见的操作 Seaborn 基础用法 import seaborn as sns import numpy as np import matplotlib.pyplot as plt def sinplot(flip=1): x = np.linspace(0, 14, 100) 阅读全文

posted @ 2020-06-05 14:46 心远志高阅读(485) 评论(0) 推荐(0)

可视化-Matplotlib的常见用法

摘要：Matplotlib常见的用法 import pandas as pd import numpy as np unrate = pd.read_csv('UNRATE.csv') unrate['DATE'] = pd.to_datetime(unrate['DATE']) print(unrate 阅读全文

posted @ 2020-06-05 09:06 心远志高阅读(257) 评论(0) 推荐(0)

仰望星空-脚踏实地

人所有的痛苦都是源于对自己无能的愤怒

06 2020 档案

公告