10 2020 档案

摘要:一、什么是决策树 决策树是广泛用于分类和回归任务的模型。本质上,它从一层层的if/else问题中进行学习,并得出结论。 假设你要以最少的问题区分下面的四种动物:熊、鹰、海豚和企鹅,你的目标是通过提出尽可能少的问题来得到正确答案。 你可能首先会问有没有羽毛,因为鹰和企鹅有羽毛,而熊和海豚没有羽毛。接着 阅读全文
posted @ 2020-10-26 21:20 流年记忆 阅读(2434) 评论(0) 推荐(0)
摘要:1.熵 信息量是对信息的度量,信息的大小跟随机事件的概率有关,越小概率的事情发生了产生的信息量越大。 信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望,考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信 息量的期望。即 $H(x)=-\sum_{i 阅读全文
posted @ 2020-10-21 21:56 流年记忆 阅读(479) 评论(0) 推荐(0)
摘要:1.概率论知识 (1) 条件概率 $P(B|A)=\frac{P(AB)}{P(A)}$ (2)全概率公式 设实验E的样本空间为S,A为E的事件,B1 ,B2,....Bn 为S的一个划分,且$P(B_{i})> 0$,(i=1,2,3...n),则 $P(A)=P(A|B_{1})P(B_{1}) 阅读全文
posted @ 2020-10-14 23:07 流年记忆 阅读(425) 评论(0) 推荐(0)
摘要:最常见的两种分类模型为:Logistic回归(logistic regression)和线性支持向量机(linear support vector machine,线性SVM),前者在linear_model.LogisticRegression中实现,后者在svm.linearSVC中实现。Log 阅读全文
posted @ 2020-10-12 21:46 流年记忆 阅读(398) 评论(0) 推荐(0)
摘要:1.线性回归 最简单的线性回归为普通最小二乘法(ordinary least squres,OLS),是回归问题最简单也是最经典的线性方法。线性回归寻找参数w(斜率),b(截距),使得训练集的预测值与回归的真实值y之间的均方误差最小。 y=w[0]*x[0]+w[1]*x[1]+....+w[n]* 阅读全文
posted @ 2020-10-12 21:21 流年记忆 阅读(151) 评论(0) 推荐(0)
摘要:1.K近邻分类 K近邻分类的思想是:在对新数据点进行预测,算法会在训练集中找到最近的数据点,也就是它的最近邻。除了考虑最近邻,我们还可以考虑(K)个邻居。这就是k近邻算法名字的由来。在考虑多于一个得邻居时,我们用" 投票法(voting)" 来决定预测的结果,也就是选取K个邻居中所属类别最多的一类最 阅读全文
posted @ 2020-10-11 12:23 流年记忆 阅读(151) 评论(0) 推荐(0)