会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大葱拌豆腐
专注于Spark、Flink、Kafka、HBase、大数据、机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
22
23
24
25
26
27
28
29
30
···
45
下一页
2018年3月18日
JVM内存四大类型:Heap,Stack,Contant,DirectMemory等
摘要: Stack属于栈的区域,属于每条线程私有的。 方法区和本地方法栈有很大的不同,方法区是用Java级别角度做的代码,本地方法栈指向的是C/C++。 Java开发,对象就在堆中,一般而言,堆中只有对象。 栈溢出测试: 常量区溢出报错测试: DirectMemory溢出报错测试:
阅读全文
posted @ 2018-03-18 22:23 大葱拌豆腐
阅读(622)
评论(0)
推荐(0)
2018年3月12日
WebHDFS vs HttpFS GateWay
摘要: 基于hadoop 2.7.1版本 一、简介 1、 WebHDFS官方简介: 2、HttpFS GateWay官方简介: 二、使用原因: 二者都提供基于REST的API,这使得一个集群外的host可以不用安装HADOOP和JAVA环境就可以对集群内的HADOOP进行访问,并且client不受语言的限制
阅读全文
posted @ 2018-03-12 23:27 大葱拌豆腐
阅读(1043)
评论(0)
推荐(0)
2018年2月5日
脱离JVM? Hadoop生态圈的挣扎与演化
摘要: 本文由知乎《大数据应用与实践》专栏 李呈祥授权发布,版权所有归作者,转载请联系作者! 新世纪以来,互联网及个人终端的普及,传统行业的信息化及物联网的发展等产业变化产生了大量的数据,远远超出了单台机器能够处理的范围,分布式存储与处理成为唯一的选项。从2005年开始,Hadoop从最初Nutch项目的一
阅读全文
posted @ 2018-02-05 10:00 大葱拌豆腐
阅读(319)
评论(0)
推荐(0)
深入理解Flink核心技术(转载)
摘要: 作者:李呈祥 Flink项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多的人关注Flink项目。本文将深入分析Flink一些关键的技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统的开发者也能有所裨益。 注:本文假设读者对MapRed
阅读全文
posted @ 2018-02-05 09:52 大葱拌豆腐
阅读(347)
评论(0)
推荐(0)
2018年2月3日
Spark机器学习系列之13: 支持向量机SVM
摘要: Spark 优缺点分析 以下翻译自Scikit。 The advantages of support vector machines are: (1)Effective in high dimensional spaces.在高维空间表现良好。 (2)Still effective in cases
阅读全文
posted @ 2018-02-03 19:48 大葱拌豆腐
阅读(803)
评论(0)
推荐(0)
Spark2.0机器学习系列之12: 线性回归及L1、L2正则化区别与稀疏解
摘要: 概述 线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x)。 Spark中实现了: (1)普通最小二乘法 (2)岭回归(L2正规化) (3)Lasso(L1正规化)。 (4)局部加权线性回归 (5)流式数据可以适用于线上的回归模型,每当有新数据达到时,更新模型的参数,MLlib目前使用普通的
阅读全文
posted @ 2018-02-03 15:25 大葱拌豆腐
阅读(1481)
评论(0)
推荐(0)
2018年2月2日
Spark2.0机器学习系列之11: 聚类(幂迭代聚类, power iteration clustering, PIC)
摘要: 在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM
阅读全文
posted @ 2018-02-02 10:31 大葱拌豆腐
阅读(1348)
评论(0)
推荐(0)
2018年2月1日
Spark2.0机器学习系列之10: 聚类(高斯混合模型 GMM)
摘要: 在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM
阅读全文
posted @ 2018-02-01 17:35 大葱拌豆腐
阅读(1098)
评论(0)
推荐(0)
机器学习算法(优化)之二:期望最大化(EM)算法
摘要: EM算法概述 (1)数学之美的作者吴军将EM算法称之为上帝的算法,EM算法也是大家公认的机器学习十大经典算法之一。EM是一种专门用于求解参数极大似然估计的迭代算法,具有良好的收敛性和每次迭代都能使似然函数值单调不减的优良性质。在统计机器学习、自然语言处理等领域应用非常广泛,许多统计学算法都是EM算法
阅读全文
posted @ 2018-02-01 17:12 大葱拌豆腐
阅读(828)
评论(0)
推荐(0)
Spark2.0机器学习系列之9: 聚类(k-means,Bisecting k-means,Streaming k-means)
摘要: 在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM
阅读全文
posted @ 2018-02-01 13:44 大葱拌豆腐
阅读(1116)
评论(0)
推荐(0)
上一页
1
···
22
23
24
25
26
27
28
29
30
···
45
下一页
公告