Tanglement - 博客园

2020年6月12日

摘要：根据这篇博客安装了scala，但是运行时，报空指针错误。百度到这篇博客，意思是下载scala-2.13.2会有这个问题。于是下载2.11.12版本，成功解决。点击上面链接，下载.msi文件一键安装通过cmd，输入scala启动scala命令行阅读全文

posted @ 2020-06-12 15:45 Tanglement 阅读(418) 评论(0) 推荐(0)

2020年6月9日

基于信用卡逾期数据的Spark数据处理与分析（Python）

摘要：《大数据处理技术Spark》这门课需要完成对一个数据集进行数据预处理、数据存储、数据处理与分析、数据可视化。也就是一个大数据的基本处理流程。本案例以和鲸社区的信用卡评分模型构建数据为数据集，以Python为编程语言，使用大数据框架Spark对数据进行处理分析，并对分析结果进行可视化。具体内容可参阅读全文

posted @ 2020-06-09 21:04 Tanglement 阅读(1162) 评论(0) 推荐(0)

2020年5月5日

逻辑回归练习

摘要：题目 The task is to determine whether a tumor will be benign (harmless) or malignant (harmful) based on leukocyte (white blood cells) count and blood pr 阅读全文

posted @ 2020-05-05 11:00 Tanglement 阅读(352) 评论(0) 推荐(0)

2020年5月3日

Structured Streaming

摘要：内容来自于林子雨老师的《Spark编程基础》和一些自己的学习笔记。概述 Structured Streaming是一种基于Spark SQL引擎构建的、可扩展且容错性高的流处理引擎。这里我把它理解为，因为Spark不能处理毫秒级流计算而诞生的流处理引擎。因此Structured Streaming 阅读全文

posted @ 2020-05-03 14:33 Tanglement 阅读(1430) 评论(0) 推荐(0)

2020年5月1日

Spark Streaming

摘要：流计算概述流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。流数据特征数据快速持续到达，无穷无尽数据来源众多，格式复杂数据量大，不关心存储注重数据的整体价值，不过分关注个别数据数据顺序颠倒或者不完整流计算流数据被处理后，一部分进入数据库成为静态阅读全文

posted @ 2020-05-01 16:13 Tanglement 阅读(267) 评论(0) 推荐(0)

2020年4月28日

决策树和随机森林

摘要：一棵决策树包含一个根结点、若干内部结点和若干个叶节点；叶结点对应决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决阅读全文

posted @ 2020-04-28 14:19 Tanglement 阅读(169) 评论(0) 推荐(0)

2020年4月27日

朴素贝叶斯

摘要：这篇博客讲解的不错[https://blog.csdn.net/guoyunfei20/article/details/78911721] 引自[https://blog.csdn.net/qiu_zhi_liao/article/details/90671932] 朴素贝叶斯是经典的机器学习算法之阅读全文

posted @ 2020-04-27 22:06 Tanglement 阅读(299) 评论(0) 推荐(0)

主成分分析（PCA）

摘要：很容易理解的一篇博客[http://blog.codinglabs.org/articles/pca tutorial.html] 在高维情形下出现的数据样本稀疏、距离计算困难等问题，称为“维数灾难”。缓解维数灾难的一个重要途径是降维。将原始高维属性空间转变成一个低维子空间，子空间样本密度大幅提高阅读全文

posted @ 2020-04-27 09:04 Tanglement 阅读(1023) 评论(0) 推荐(0)

2020年4月26日

K近邻（KNN）

摘要：工作原理 K Nearest Neighbor，KNN。是一种常用的监督学习方法，其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其最靠近的K个训练样本，然后基于这K个邻居的信息来进行预测。通常，在分类任务中可使用投票法，选择K个样本中出现最多的类别标记作为预测结果；在回归任务中使用阅读全文

posted @ 2020-04-26 12:40 Tanglement 阅读(395) 评论(0) 推荐(0)

2020年4月25日

最大期望算法（EM算法）

摘要： EM学习笔记推荐[https://www.cnblogs.com/bigmoyan/p/4550375.html] 最大期望算法（Expectation maximization algorithm，又译为期望最大化算法），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于阅读全文

posted @ 2020-04-25 19:02 Tanglement 阅读(896) 评论(0) 推荐(0)

公告