摘要: 无监督学习 没有标签 聚类(Clustering) 图上的数据看起来可以分成两个分开的点集(称为簇),这就是为聚类算法。 此后我们还将提到其他类型的非监督学习算法,它们可以为我们找到其他类型的结构或者其他的一些模式,而不只是簇。 K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类 阅读全文
posted @ 2019-06-24 10:16 独孤风 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 与逻辑回归和神经网络相比,支持向量机或者简称 SVM,更为强大。 人们有时将支持向量机看作是大间距分类器。 这是我的支持向量机模型代价函数 这样将得到一个更好的决策边界 理解支持向量机模型的做法,即努力将正样本和负用最大间距分开。 实际上应用支持向量机的时候, 当𝐶不是非常大的时候, 它可以忽略掉 阅读全文
posted @ 2019-06-20 17:00 独孤风 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效,可考虑 先采用下面的几种方法。 1.尝试减少特征的数量 2.尝试获得更多的特征 3.尝试增加多项式特征 4.尝试减少正则化程度𝜇 我们需要使用交叉 验证集来帮助选择模型。 即:使用 60%的数据作为训练集,使用 20%的数据作为 阅读全文
posted @ 2019-06-04 09:57 独孤风 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 前提已经安装好hadoop的hdfs集群,可以查看 https://www.cnblogs.com/tree1123/p/10683570.html Mapreduce是hadoop的运算框架,可以对hdfs中的数据分开进行计算,先执行很多maptask,在执行reducetask,这个过程中任务的 阅读全文
posted @ 2019-04-15 15:56 独孤风 阅读(399) 评论(0) 推荐(1) 编辑
摘要: 无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时, 计算的负荷会非常大。 比如识别图像,是否是一辆汽车,可能就需要判断太多像素。 这时候就需要神经网络。 神经网络是模拟人类大脑的神经网络,由神经元,输入树突,输出树突构成。 由此设计神经网络模型: x1,x2,x3是输入单元,将原始数据给 阅读全文
posted @ 2019-04-15 10:54 独孤风 阅读(324) 评论(0) 推荐(0) 编辑
摘要: 过拟合(over-fitting) 欠拟合 正好 过拟合 怎么解决 1.丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一 些模型选择的算法来帮忙(例如 PCA) 2.正则化。 保留所有的特征,但是减少参数的大小(magnitude) 回归问题的模型是 是高次项导致了这个问题 阅读全文
posted @ 2019-04-12 13:43 独孤风 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 1、饿汉模式 public class Singleton{ private static Singleton instance = new Singleton(); private Singleton() public static Singleton newInstance(){ return 阅读全文
posted @ 2019-04-11 09:41 独孤风 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 需要精通java开发,有一定linux基础。 1、简介 大数据就是对海量数据进行数据挖掘。 已经有了很多框架方便使用,常用的有hadoop,storm,spark,flink等,辅助框架hive,kafka,es,sqoop,flume等。 常见应用推荐系统,用户画像等。 2、hadoop hado 阅读全文
posted @ 2019-04-10 15:14 独孤风 阅读(412) 评论(0) 推荐(0) 编辑
摘要: notebook1.md NoteBook学习(一) Zeppelin VS Jupyter1 NoteBook是什么?比IDE更受数据科学家欢迎的数据处理工具,笔记本。提供了基于浏览器的交互式分析环境,数据科学家可以使用Python、Scala或者R进行交互式的开发,来设计分析模型,可视化展现分析 阅读全文
posted @ 2018-12-28 11:54 独孤风 阅读(3782) 评论(0) 推荐(0) 编辑
摘要: Zeppelin官网地址: http://zeppelin.apache.org/ Github地址: https://github.com/apache/zeppelin (参照官网) 1、什么是zeppelin 多用途的笔记本。数据的采集 发现 分析 可视化 协作。。 支持20+种后端语言,支持 阅读全文
posted @ 2018-12-27 13:35 独孤风 阅读(1099) 评论(0) 推荐(0) 编辑