会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Tanglement
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
15
下一页
2020年6月12日
Windows安装Scala及解决空指针异常问题
摘要: 根据这篇博客安装了scala,但是运行时,报空指针错误。 百度到这篇博客,意思是下载scala-2.13.2会有这个问题。 于是下载2.11.12版本,成功解决。 点击上面链接,下载.msi文件 一键安装 通过cmd,输入scala启动scala命令行
阅读全文
posted @ 2020-06-12 15:45 Tanglement
阅读(398)
评论(0)
推荐(0)
2020年6月9日
基于信用卡逾期数据的Spark数据处理与分析(Python)
摘要: 《大数据处理技术Spark》这门课需要完成对一个数据集进行数据预处理、数据存储、数据处理与分析、数据可视化。也就是一个大数据的基本处理流程。 本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程语言,使用大数据框架Spark对数据进行处理分析,并对分析结果进行可视化。 具体内容可参
阅读全文
posted @ 2020-06-09 21:04 Tanglement
阅读(1140)
评论(0)
推荐(0)
2020年5月5日
逻辑回归练习
摘要: 题目 The task is to determine whether a tumor will be benign (harmless) or malignant (harmful) based on leukocyte (white blood cells) count and blood pr
阅读全文
posted @ 2020-05-05 11:00 Tanglement
阅读(338)
评论(0)
推荐(0)
2020年5月3日
Structured Streaming
摘要: 内容来自于林子雨老师的《Spark编程基础》和一些自己的学习笔记。 概述 Structured Streaming是一种基于Spark SQL引擎构建的、可扩展且容错性高的流处理引擎。这里我把它理解为,因为Spark不能处理毫秒级流计算而诞生的流处理引擎。因此Structured Streaming
阅读全文
posted @ 2020-05-03 14:33 Tanglement
阅读(1374)
评论(0)
推荐(0)
2020年5月1日
Spark Streaming
摘要: 流计算概述 流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。 流数据特征 数据快速持续到达,无穷无尽 数据来源众多,格式复杂 数据量大,不关心存储 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒或者不完整 流计算 流数据被处理后,一部分进入数据库成为静态
阅读全文
posted @ 2020-05-01 16:13 Tanglement
阅读(254)
评论(0)
推荐(0)
2020年4月28日
决策树和随机森林
摘要: 一棵决策树包含一个根结点、若干内部结点和若干个叶节点;叶结点对应决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决
阅读全文
posted @ 2020-04-28 14:19 Tanglement
阅读(150)
评论(0)
推荐(0)
2020年4月27日
朴素贝叶斯
摘要: 这篇博客讲解的不错[https://blog.csdn.net/guoyunfei20/article/details/78911721] 引自[https://blog.csdn.net/qiu_zhi_liao/article/details/90671932] 朴素贝叶斯是经典的机器学习算法之
阅读全文
posted @ 2020-04-27 22:06 Tanglement
阅读(281)
评论(0)
推荐(0)
主成分分析(PCA)
摘要: 很容易理解的一篇博客[http://blog.codinglabs.org/articles/pca tutorial.html] 在高维情形下出现的数据样本稀疏、距离计算困难等问题,称为“维数灾难”。 缓解维数灾难的一个重要途径是降维。将原始高维属性空间转变成一个低维子空间,子空间样本密度大幅提高
阅读全文
posted @ 2020-04-27 09:04 Tanglement
阅读(996)
评论(0)
推荐(0)
2020年4月26日
K近邻(KNN)
摘要: 工作原理 K Nearest Neighbor,KNN。是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测。通常,在分类任务中可使用投票法,选择K个样本中出现最多的类别标记作为预测结果;在回归任务中使用
阅读全文
posted @ 2020-04-26 12:40 Tanglement
阅读(383)
评论(0)
推荐(0)
2020年4月25日
最大期望算法(EM算法)
摘要: EM学习笔记推荐[https://www.cnblogs.com/bigmoyan/p/4550375.html] 最大期望算法(Expectation maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于
阅读全文
posted @ 2020-04-25 19:02 Tanglement
阅读(871)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
15
下一页
公告