上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 45 下一页
摘要: 日志数据: 阅读全文
posted @ 2017-05-16 12:41 大葱拌豆腐 阅读(939) 评论(0) 推荐(0)
摘要: Pipeline 为流程,是Spark创建机器学习的一个流程控制的类 下面直接贴出创建的代码,以及整个流程 第一种: 第二种: 阅读全文
posted @ 2017-05-16 12:36 大葱拌豆腐 阅读(892) 评论(0) 推荐(0)
摘要: 功能:接收来自kafka的数据,数据是一篇文章,来判断文章的类型,把判断的结果一并保存到Hbase,并把文章建立索引(没有代码只有一个空壳,可以自己实现,以后有机会了可能会补上) 代码实现: 阅读全文
posted @ 2017-05-16 11:59 大葱拌豆腐 阅读(1030) 评论(0) 推荐(0)
摘要: 实用的朴素贝叶斯模型建模 建模过程主要是把文本转化成向量然后再作分析 数据格式: 阅读全文
posted @ 2017-05-16 11:55 大葱拌豆腐 阅读(2077) 评论(0) 推荐(0)
摘要: 这篇文章参考《Spark快速大数据分析》,归纳spark技术核心的rdd及MLlib以及其中几个重要库的使用。 初始化操作 spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序包含应用的main函 阅读全文
posted @ 2017-05-16 11:31 大葱拌豆腐 阅读(1226) 评论(1) 推荐(0)
摘要: 转载自:https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.html IBM 公司在 2015 年对外宣告了一个新的科技和商务时代的来临—认知时代。这个巨大的转变, 阅读全文
posted @ 2017-05-16 10:54 大葱拌豆腐 阅读(2348) 评论(0) 推荐(0)
摘要: Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言,当读取这个文件时需要有r权限,当写入或者追加到文件时需要有w权限。对目录 阅读全文
posted @ 2017-05-09 20:19 大葱拌豆腐 阅读(9571) 评论(0) 推荐(1)
摘要: 通过java api连接Hadoop集群时,如果集群支持HA方式,那么可以通过如下方式设置来自动切换到活动的master节点上。其中,ClusterName 是可以任意指定的,跟集群配置无关,dfs.ha.namenodes.ClusterName也可以任意指定名称,有几个master就写几个,后面 阅读全文
posted @ 2017-05-09 19:51 大葱拌豆腐 阅读(3375) 评论(0) 推荐(0)
摘要: hbase的快照功能常常被用来做数据的恢复的,但是由于项目的特殊需求需要改hbase表的表名。在官网上通过快照功能来修改hbase表名的用法: 下面展示用shell命令的和Java api两种方式: In versions 0.90.x of hbase and earlier, we had a 阅读全文
posted @ 2017-04-25 20:07 大葱拌豆腐 阅读(749) 评论(0) 推荐(0)
摘要: 呼叫结果(call_result)与销售历史(sale_history)的join优化: CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G 原逻辑 Map: 3255 Reduce: 950 Cumulative CPU: 238867.84 sec HDF 阅读全文
posted @ 2017-04-11 19:21 大葱拌豆腐 阅读(1402) 评论(0) 推荐(0)
上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 45 下一页