摘要: 一、什么是OverFitting 我们说一个模型,他可以非常完美的拟合既定的训练数据,也就是代价(损失)函数,但是对于新的数据,却不能很好的拟合,也就是不适应于泛化,这样我们就称模型过拟合(over fitting),如下图第三个图所示。此外,还有欠拟合(under fitting),也就是连训练数 阅读全文
posted @ 2017-03-16 23:08 zhkmxx930 阅读(360) 评论(0) 推荐(0)
摘要: 一、正则化应用于基于梯度下降的线性回归 上一篇文章我们说过,通过正则化的思想,我们将代价函数附加了一个惩罚项,变成如下的公式: <!--more--> 那么我们将这一公式套用到线性回归的代价函数中去。我们说过,一般而言θ0我们不做处理,所以我们把梯度下降计算代价函数最优解的过程转化为如下两个公式。 阅读全文
posted @ 2017-03-16 23:07 zhkmxx930 阅读(202) 评论(0) 推荐(0)
摘要: 一、前言<!--more--> 在使用Spark Streaming中的Kafka Direct API进行Kafka消费的过程中,通过spark-submit的方式提交jar包,会出现如下错误信息,提示无法找到KafkaUtils。 Exceptionin thread "main" java.l 阅读全文
posted @ 2017-03-08 21:40 zhkmxx930 阅读(1178) 评论(0) 推荐(0)
摘要: RPM方式安装MySQL5.6 a. 检查MySQL及相关RPM包,是否安装,如果有安装,则移除(rpm –e 名称) 1 [root@localhost rpm]# ll 2 total 74364 3 -rw-r--r--.1 root root 18442536Dec1120:19MySQL- 阅读全文
posted @ 2017-03-08 21:35 zhkmxx930 阅读(182) 评论(0) 推荐(0)
摘要: 一、前言<!--more--> 近期在做Oracle迁移到Spark平台的项目上遇到了一些平台公式翻译为SparkSQL(on Hive)的需求,而Spark采用亲妈语言Scala进行开发。分析过大概需求过后,拟使用编译原理中的EBNF范式模式,进行基于词法的文法解析。于是拟采用传统的正则词法解析到 阅读全文
posted @ 2017-03-07 22:07 zhkmxx930 阅读(265) 评论(0) 推荐(0)
摘要: 一、为什么不使用Linear Regression 一个简单的例子:如果训练集出现跨度很大的情况,容易造成误分类。如图所示,图中洋红色的直线为我们的假设函数。我们假定,当该直线纵轴取值大于等于0.5时,判定Malignant为真,即y=1,恶性肿瘤;而当纵轴取值小于0.5时,判定为良性肿瘤,即y=0。 就洋红色直线而言,是在没有最右面的"×"的训练集,通过线性回归而产生的... 阅读全文
posted @ 2017-03-07 22:06 zhkmxx930 阅读(145) 评论(0) 推荐(0)
摘要: 一、为什么不用Linear Regression的Cost Function来衡量Logistic Regression的θ向量 回顾一下,线性回归的Cost Function为 我们使用Cost函数来简化上述公式: 那么通过上一篇文章,我们知道,在Logistic Regression中,我们的假 阅读全文
posted @ 2017-03-07 22:00 zhkmxx930 阅读(194) 评论(2) 推荐(1)