摘要: 包 我的版本 最新版本 Automat 0.8.0 20.2.0 Brlapi * 0.6.6 Click 7.0 7.1.1 Django 1.11.8 Flask 1.1.1 1.1.1 Flask-SQLAlchemy 2.4.1 2.4.1 Flask-Script 2.0.6 2.0.6 阅读全文
posted @ 2020-03-27 09:30 初学者小明 阅读(527) 评论(0) 推荐(0) 编辑
摘要: 推荐引擎:分析相似样本,而统计相似样本的方式可以基于欧氏距离分数,也可基于皮氏距离分数 欧式距离分数:越趋近于0样本,欧氏距离越远。 阅读全文
posted @ 2020-03-25 15:30 初学者小明 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 均值漂移法:中间密,四周散 漂移时拟合度达到前所未有的高度。 轮廓系数: 好的聚类:同一个聚类内部的样本要足够密集,不同的聚类要足够疏远 轮廓系数的计算规则:针对一个特定样本a,一级该样本与距离最近的另一个聚类中所有样本的平均距离b。一般情况下a<b DBSCAN算法:从样本空间任意选择一个样本,以 阅读全文
posted @ 2020-03-24 19:23 初学者小明 阅读(761) 评论(0) 推荐(0) 编辑
摘要: 聚类模型(欧式距离) 分类与聚类,分类是有监督的学习,聚类是无监督的学习 K均值算法 第一步:假设有一组样本,随机选择k个样本,作为k个聚类的中心,计算距离,将样本划分到离自己最近的类别里。(比如喜欢看的电影:1,30,1【爱情,30分钟,1 高清】1,31,1) 注意:1,聚类数K必须事先已知, 阅读全文
posted @ 2020-03-24 16:13 初学者小明 阅读(1184) 评论(0) 推荐(0) 编辑
摘要: event.txt 解决分类问题: 数据处理:训练集测试集划分,交叉验证,验证曲线,学习曲线,网格搜索。。 分类模型:逻辑回归,朴素贝叶斯,树模型,svm 模型评估:混淆矩阵,分类报告;查找率,召回率,f1得分 阅读全文
posted @ 2020-03-24 15:32 初学者小明 阅读(217) 评论(0) 推荐(0) 编辑
摘要: API: model = ms.GridSearchCV(模型,超参数组合列表,cv=折叠书) 网格搜索 model.fit(输入集,输出集) #获取网格搜索的每个参数集合 model.cv_results_['params'] # 获取网格搜索每个参数组合model.cv_results_['pa 阅读全文
posted @ 2020-03-24 10:54 初学者小明 阅读(742) 评论(0) 推荐(0) 编辑
摘要: NLP 预测酒店评论 : 好评 or 差评(0.99,0.99,0.53) API: # 在获取模型时,给出超参数probability=True model = svm.SVC(kernel='rbf', C=600, gamma=0.01, probability=True) 预测结果 = mo 阅读全文
posted @ 2020-03-24 10:37 初学者小明 阅读(1086) 评论(0) 推荐(0) 编辑
摘要: 样本类别数量不均衡,对当前模型的影响很严重。假设1000人中50人是小偷,预测很难准。 但样本类别均衡胡会是比例较小的权重较高,以此提高模型性能。 API: model = svm.SVC(kernel='linear',class_weight='balanced') (kernel = 'rbf 阅读全文
posted @ 2020-03-24 09:43 初学者小明 阅读(802) 评论(0) 推荐(0) 编辑
摘要: 爬虫用到的知识点 1,第一阶段:字符串,列表方法。。。 2,第二阶段:Mysql,MongoDB,多进程爬虫,多线程爬虫,正则表达式re 3,第三阶段:HTML,JS,Redis数据库。。。 阅读全文
posted @ 2020-02-18 11:55 初学者小明 阅读(209) 评论(0) 推荐(0) 编辑
摘要: JWT - json-web-token json.dumps(d,separators = (',' , ':')) separators:分隔符,键值对之间 ,相连, jwt.encode({'username':'a','exp':time.time()+300},'123456',algor 阅读全文
posted @ 2020-02-10 17:31 初学者小明 阅读(109) 评论(0) 推荐(0) 编辑