07 2021 档案

摘要:一、从一个例子开始 假设你在一家金融公司工作,老板交给你一个任务,建一个模型,用来预测一个借款人是否会违约,公司拥有一个借款人的特征数据,比如年龄。 将是否违约作为标签变量y,0表示没有违约,1表示违约。在给定特征x的情况下,我们假设 y 是一个服从伯努利分布的二值随机变量。注意,这是我们做的第一个 阅读全文
posted @ 2021-07-30 18:53 celine227 阅读(433) 评论(0) 推荐(0)
摘要:1. 模型介绍 Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。 Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。 1.1 Log 阅读全文
posted @ 2021-07-30 15:50 celine227 阅读(450) 评论(0) 推荐(0)
摘要:一、什么是“核函数”我们都知道,机器学习(神经网络)的一个很重要的目的,就是将数据分类。我们想象下面这个数据(图1),在二维空间(特征表示为和)中随机分布的两类数据(用圆圈和叉叉表示)。 如果我们想要将这两类数据进行分类,那么分类的边界将会是一个椭圆: 但是如果我们可以通过一个映射,将数据的特征通过 阅读全文
posted @ 2021-07-30 15:17 celine227 阅读(927) 评论(0) 推荐(0)
摘要:Regularization can be used to avoid overfitting. But what actually is regularization, what are the common techniques, and how do they differ? Well, ac 阅读全文
posted @ 2021-07-29 12:45 celine227 阅读(178) 评论(0) 推荐(0)
摘要:1. A linear model does not output probabilities, but it treats the classes as numbers (0 and 1) and fits the best hyperplane (for a single feature, it 阅读全文
posted @ 2021-07-29 12:36 celine227 阅读(106) 评论(0) 推荐(0)
摘要:感知器算法是一种可以直接得到线性判别函数的线性分类方法,由于它是基于样本线性可分的要求下使用的,所以先来了解下什么是线性可分? 线性可分与线性不可分 假设有一个包含 个样本的样本集合 , 其中 . 我们想要找到一个线性判别函数 将两类样本分开,其中 ,如图1所示: 图 1 为了讨论方便,我们将样本 阅读全文
posted @ 2021-07-28 18:58 celine227 阅读(2435) 评论(0) 推荐(0)
摘要:2. 选择性偏差校正 2.1 选择模型 选择模型有两种主要应用,一是 处理效应 (treatment effect model),即回归模型中包含一个内生的指示变量 ()。例如,管理层是否发布盈余预测 ( 或 0) 对资本成本影响。二是 样本选择 (sample selection model),即 阅读全文
posted @ 2021-07-25 15:49 celine227 阅读(13236) 评论(0) 推荐(0)
摘要:数据清理第一步:整体数据查看 一、查看识别变量--isid、duplicates 一般而言,每个数据集都有唯一一个识别每条记录的识别符(重复测量的长型数据除外)。Stata检查唯一识别符是否唯一的命令为isid(或许是is this an ID的缩写)。isid允许同时检查多个唯一识别符,如果没有返 阅读全文
posted @ 2021-07-16 10:44 celine227 阅读(8916) 评论(0) 推荐(0)
摘要:Stata操作 工具变量法的难点在于找到一个合适的工具变量并说明其合理性,Stata操作其实相当简单,只需一行命令就可以搞定,我们通常使用的工具变量法的Stata命令主要就是ivregress命令和ivreg2命令。 ivregress命令 ivregress命令是Stata自带的命令,支持两阶段最 阅读全文
posted @ 2021-07-14 17:45 celine227 阅读(52096) 评论(1) 推荐(0)
摘要:1.1 工具变量法 OLS 有一个经典的假设:解释变量与随机误差项不相关,即 。如果存在解释变量违背了这个假设,则估计出的参数是有偏的,也是不一致的。 工具变量 (IV) 法为解决「内生解释变量」问题提供了一种可行的方法。为此,我们需要找到满足以下条件的「外生解释变量 (z)」: 与内生解释变量相关 阅读全文
posted @ 2021-07-14 11:20 celine227 阅读(54437) 评论(1) 推荐(0)
摘要:一、解释变量内生性检验 首先检验解释变量内生性(解释变量内生性的Hausman 检验:使用工具变量法的前提是存在内生解释变量。Hausman 检验的原假设为:所有解释变量均为外生变量,如果拒绝,则认为存在内生解释变量,要用IV;反之,如果接受,则认为不存在内生解释变量,应该使用OLS。 reg ld 阅读全文
posted @ 2021-07-14 10:07 celine227 阅读(8618) 评论(0) 推荐(0)
摘要:1. 五分位(中位数) by year,sort:egen distance_ew_median=median(Ln_geodistance_ew) gen distance_ew_high=(Ln_geodistance_ew>distance_ew) if Ln_geodistance_ew!= 阅读全文
posted @ 2021-07-13 12:56 celine227 阅读(5326) 评论(0) 推荐(0)
摘要:1. joinby 命令:多对多的匹配 *输入数据 clear input group str3 x1 1 "A" 1 "B" 1 "C" 1 "D" end save file1.dta,replace clear input group str3 x2 1 "M" 1 "N" end save 阅读全文
posted @ 2021-07-13 11:28 celine227 阅读(2308) 评论(0) 推荐(1)
摘要:可以通过查看确认为什么出现了重复值 sort stkcd year //重复值检验和删除 by stkcd year: gen set=_n keep if set==1 drop set 对于重复值直接进行删除 duplicates drop stkcd year, force 阅读全文
posted @ 2021-07-11 11:39 celine227 阅读(3819) 评论(0) 推荐(0)
摘要:1. 建立新变量 gen z=x*y 2. addition to typing variable names from your data, you can type factor variables, which might look like i.varname i.varname#i.var 阅读全文
posted @ 2021-07-06 10:29 celine227 阅读(4625) 评论(0) 推荐(0)