上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页
摘要: 根据这篇博客安装了scala,但是运行时,报空指针错误。 百度到这篇博客,意思是下载scala-2.13.2会有这个问题。 于是下载2.11.12版本,成功解决。 点击上面链接,下载.msi文件 一键安装 通过cmd,输入scala启动scala命令行 阅读全文
posted @ 2020-06-12 15:45 Tanglement 阅读(398) 评论(0) 推荐(0)
摘要: 《大数据处理技术Spark》这门课需要完成对一个数据集进行数据预处理、数据存储、数据处理与分析、数据可视化。也就是一个大数据的基本处理流程。 本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程语言,使用大数据框架Spark对数据进行处理分析,并对分析结果进行可视化。 具体内容可参 阅读全文
posted @ 2020-06-09 21:04 Tanglement 阅读(1140) 评论(0) 推荐(0)
摘要: 题目 The task is to determine whether a tumor will be benign (harmless) or malignant (harmful) based on leukocyte (white blood cells) count and blood pr 阅读全文
posted @ 2020-05-05 11:00 Tanglement 阅读(338) 评论(0) 推荐(0)
摘要: 内容来自于林子雨老师的《Spark编程基础》和一些自己的学习笔记。 概述 Structured Streaming是一种基于Spark SQL引擎构建的、可扩展且容错性高的流处理引擎。这里我把它理解为,因为Spark不能处理毫秒级流计算而诞生的流处理引擎。因此Structured Streaming 阅读全文
posted @ 2020-05-03 14:33 Tanglement 阅读(1374) 评论(0) 推荐(0)
摘要: 流计算概述 流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。 流数据特征 数据快速持续到达,无穷无尽 数据来源众多,格式复杂 数据量大,不关心存储 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒或者不完整 流计算 流数据被处理后,一部分进入数据库成为静态 阅读全文
posted @ 2020-05-01 16:13 Tanglement 阅读(254) 评论(0) 推荐(0)
摘要: 一棵决策树包含一个根结点、若干内部结点和若干个叶节点;叶结点对应决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决 阅读全文
posted @ 2020-04-28 14:19 Tanglement 阅读(150) 评论(0) 推荐(0)
摘要: 这篇博客讲解的不错[https://blog.csdn.net/guoyunfei20/article/details/78911721] 引自[https://blog.csdn.net/qiu_zhi_liao/article/details/90671932] 朴素贝叶斯是经典的机器学习算法之 阅读全文
posted @ 2020-04-27 22:06 Tanglement 阅读(281) 评论(0) 推荐(0)
摘要: 很容易理解的一篇博客[http://blog.codinglabs.org/articles/pca tutorial.html] 在高维情形下出现的数据样本稀疏、距离计算困难等问题,称为“维数灾难”。 缓解维数灾难的一个重要途径是降维。将原始高维属性空间转变成一个低维子空间,子空间样本密度大幅提高 阅读全文
posted @ 2020-04-27 09:04 Tanglement 阅读(996) 评论(0) 推荐(0)
摘要: 工作原理 K Nearest Neighbor,KNN。是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测。通常,在分类任务中可使用投票法,选择K个样本中出现最多的类别标记作为预测结果;在回归任务中使用 阅读全文
posted @ 2020-04-26 12:40 Tanglement 阅读(383) 评论(0) 推荐(0)
摘要: EM学习笔记推荐[https://www.cnblogs.com/bigmoyan/p/4550375.html] 最大期望算法(Expectation maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于 阅读全文
posted @ 2020-04-25 19:02 Tanglement 阅读(871) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页