摘要: 均值漂移法:中间密,四周散 漂移时拟合度达到前所未有的高度。 轮廓系数: 好的聚类:同一个聚类内部的样本要足够密集,不同的聚类要足够疏远 轮廓系数的计算规则:针对一个特定样本a,一级该样本与距离最近的另一个聚类中所有样本的平均距离b。一般情况下a<b DBSCAN算法:从样本空间任意选择一个样本,以 阅读全文
posted @ 2020-03-24 19:23 初学者小明 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 聚类模型(欧式距离) 分类与聚类,分类是有监督的学习,聚类是无监督的学习 K均值算法 第一步:假设有一组样本,随机选择k个样本,作为k个聚类的中心,计算距离,将样本划分到离自己最近的类别里。(比如喜欢看的电影:1,30,1【爱情,30分钟,1 高清】1,31,1) 注意:1,聚类数K必须事先已知, 阅读全文
posted @ 2020-03-24 16:13 初学者小明 阅读(1187) 评论(0) 推荐(0) 编辑
摘要: event.txt 解决分类问题: 数据处理:训练集测试集划分,交叉验证,验证曲线,学习曲线,网格搜索。。 分类模型:逻辑回归,朴素贝叶斯,树模型,svm 模型评估:混淆矩阵,分类报告;查找率,召回率,f1得分 阅读全文
posted @ 2020-03-24 15:32 初学者小明 阅读(219) 评论(0) 推荐(0) 编辑
摘要: API: model = ms.GridSearchCV(模型,超参数组合列表,cv=折叠书) 网格搜索 model.fit(输入集,输出集) #获取网格搜索的每个参数集合 model.cv_results_['params'] # 获取网格搜索每个参数组合model.cv_results_['pa 阅读全文
posted @ 2020-03-24 10:54 初学者小明 阅读(742) 评论(0) 推荐(0) 编辑
摘要: NLP 预测酒店评论 : 好评 or 差评(0.99,0.99,0.53) API: # 在获取模型时,给出超参数probability=True model = svm.SVC(kernel='rbf', C=600, gamma=0.01, probability=True) 预测结果 = mo 阅读全文
posted @ 2020-03-24 10:37 初学者小明 阅读(1088) 评论(0) 推荐(0) 编辑
摘要: 样本类别数量不均衡,对当前模型的影响很严重。假设1000人中50人是小偷,预测很难准。 但样本类别均衡胡会是比例较小的权重较高,以此提高模型性能。 API: model = svm.SVC(kernel='linear',class_weight='balanced') (kernel = 'rbf 阅读全文
posted @ 2020-03-24 09:43 初学者小明 阅读(803) 评论(0) 推荐(0) 编辑