HuZihu

2019年7月24日

查全率（Recall），查准率（Precision），灵敏性（Sensitivity），特异性（Specificity），F1，PR曲线，ROC，AUC的应用场景

摘要：之前介绍了这么多分类模型的性能评价指标（《分类模型的性能评价指标（Classification Model Performance Evaluation Metric）》），那么到底应该选择哪些指标来评估自己的模型呢？答案是应根据应用场景进行选择。查全率（Recall）：recall是相对真实的情阅读全文

posted @ 2019-07-24 20:42 HuZihu 阅读(4880) 评论(0) 推荐(0)

2019年7月20日

分类模型的性能评价指标（Classification Model Performance Evaluation Metric）

摘要：二分类模型的预测结果分为四种情况（正类为1，反类为0）： TP(True Positive)：预测为正类，且预测正确（真实为1，预测也为1） FP(False Positive)：预测为正类，但预测错误（真实为0，预测为1） TN(True Negative)：预测为负类，且预测正确（真实为0，预测阅读全文

posted @ 2019-07-20 17:14 HuZihu 阅读(5549) 评论(0) 推荐(0)

2019年7月16日

自助法（Bootstraping）

摘要：自助法（Bootstraping）是另一种模型验证（评估）的方法（之前已经介绍过单次验证和交叉验证：验证和交叉验证（Validation & Cross Validation））。其以自助采样法（Bootstrap Sampling）为基础，即有放回的采样或重复采样。（注：这是一种样本内抽样的方法，阅读全文

posted @ 2019-07-16 14:12 HuZihu 阅读(15534) 评论(0) 推荐(1)

2019年7月15日

用pickle保存机器学习模型

摘要：在机器学习中，当确定好一个模型后，我们需要将它保存下来，这样当新数据出现时，我们能够调出这个模型来对新数据进行预测。同时这些新数据将被作为历史数据保存起来，经过一段周期后，使用更新的历史数据再次训练，得到更新的模型。如果模型的流转都在python内部，那么可以使用内置的pickle库来完成模型的存阅读全文

posted @ 2019-07-15 17:56 HuZihu 阅读(7734) 评论(0) 推荐(0)

回归模型的性能评价指标（Regression Model Performance Evaluation Metric）

摘要：因为光看模型在训练集上的表现容易导致过拟合，因此回归模型通常有两种评价方式，一种是看验证/交叉验证的结果，另一种是对训练集上的表现结果进行修正，常见指标有：AIC，BIC，Cp，adjusted R2。用验证/交叉验证方式评价回归模型性能的指标（Performance Evaluation Met 阅读全文

posted @ 2019-07-15 15:45 HuZihu 阅读(8056) 评论(0) 推荐(0)

2019年7月14日

一些常用的文本文件格式（TXT，JSON，CSV）以及如何从这些文件中读取和写入数据

摘要： TXT文件： txt是微软在操作系统上附带的一种文本格式，文件以.txt为后缀。从txt文件中读取数据： with open ('xxx.txt') as file: data=file.readlines() 此外，还可以用pandas的read_table功能：pd.read_table(fi 阅读全文

posted @ 2019-07-14 21:34 HuZihu 阅读(7626) 评论(0) 推荐(0)

2019年7月11日

用Xpath选择器解析网页（lxml）

摘要：在《爬虫基础以及一个简单的实例》一文中，我们使用了正则表达式来解析爬取的网页。但是正则表达式有些繁琐，使用起来不是那么方便。这次我们试一下用Xpath选择器来解析网页。首先，什么是XPath？XPath即XML路径语言（XML Path Language），用于在XML文档中查找信息（在XML文档阅读全文

posted @ 2019-07-11 11:04 HuZihu 阅读(5167) 评论(0) 推荐(0)

MongoDB---如何避免插入重复数据（pymongo）

摘要：以下摘自pymongo文档： update_one(filter, update, upsert=False) update_many(filter, update, upsert=False) filter: A query that matches the document to update. 阅读全文

posted @ 2019-07-11 10:57 HuZihu 阅读(3229) 评论(0) 推荐(0)

2019年7月10日

超参数（Hyperparameter）

摘要：什么是超参数？机器学习模型中一般有两类参数：一类需要从数据中学习和估计得到，称为模型参数（Parameter）即模型本身的参数。比如，线性回归直线的加权系数（斜率）及其偏差项（截距）都是模型参数。还有一类则是机器学习算法中的调优参数（tuning parameters），需要人为设定，称为超参数阅读全文

posted @ 2019-07-10 10:58 HuZihu 阅读(37982) 评论(2) 推荐(9)

2019年7月8日

验证和交叉验证（Validation & Cross Validation）

摘要：之前在《训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）》一文中已经提过对模型进行验证（评估）的几种方式。下面来回顾一下什么是模型验证的正确方式，并详细说说交叉验证的方法。验证（Validation）：把数据集随机分阅读全文

posted @ 2019-07-08 14:18 HuZihu 阅读(15201) 评论(2) 推荐(0)

公告