2020 年 3月 24 日随笔档案 - 初学者小明

2020年3月24日

摘要：均值漂移法：中间密，四周散漂移时拟合度达到前所未有的高度。轮廓系数: 好的聚类：同一个聚类内部的样本要足够密集，不同的聚类要足够疏远轮廓系数的计算规则：针对一个特定样本a，一级该样本与距离最近的另一个聚类中所有样本的平均距离b。一般情况下a<b DBSCAN算法：从样本空间任意选择一个样本，以阅读全文

posted @ 2020-03-24 19:23 初学者小明阅读(904) 评论(0) 推荐(0)

聚类模型

摘要：聚类模型（欧式距离）分类与聚类，分类是有监督的学习，聚类是无监督的学习 K均值算法第一步：假设有一组样本，随机选择k个样本，作为k个聚类的中心，计算距离，将样本划分到离自己最近的类别里。（比如喜欢看的电影：1,30,1【爱情，30分钟，1 高清】1,31,1）注意：1，聚类数K必须事先已知，阅读全文

posted @ 2020-03-24 16:13 初学者小明阅读(1262) 评论(0) 推荐(0)

事件预测 -- 解决分类问题

摘要： event.txt 解决分类问题：数据处理：训练集测试集划分，交叉验证，验证曲线，学习曲线，网格搜索。。分类模型：逻辑回归，朴素贝叶斯，树模型，svm 模型评估：混淆矩阵，分类报告；查找率，召回率，f1得分阅读全文

posted @ 2020-03-24 15:32 初学者小明阅读(232) 评论(0) 推荐(0)

网格搜索

摘要： API： model = ms.GridSearchCV(模型,超参数组合列表,cv=折叠书) 网格搜索 model.fit(输入集,输出集) #获取网格搜索的每个参数集合 model.cv_results_['params'] # 获取网格搜索每个参数组合model.cv_results_['pa 阅读全文

posted @ 2020-03-24 10:54 初学者小明阅读(770) 评论(0) 推荐(0)

置信概率

摘要： NLP 预测酒店评论：好评 or 差评（0.99,0.99,0.53） API： # 在获取模型时，给出超参数probability=True model = svm.SVC(kernel='rbf', C=600, gamma=0.01, probability=True) 预测结果 = mo 阅读全文

posted @ 2020-03-24 10:37 初学者小明阅读(1168) 评论(0) 推荐(0)

样本类别均衡化

摘要：样本类别数量不均衡，对当前模型的影响很严重。假设1000人中50人是小偷，预测很难准。但样本类别均衡胡会是比例较小的权重较高，以此提高模型性能。 API： model = svm.SVC(kernel='linear',class_weight='balanced') （kernel = 'rbf 阅读全文

posted @ 2020-03-24 09:43 初学者小明阅读(827) 评论(0) 推荐(0)

初学者小明

公告