大葱拌豆腐 - 博客园

2017年5月16日

统计web日志里面一个时间段的get请求数量

摘要：日志数据：阅读全文

posted @ 2017-05-16 12:41 大葱拌豆腐阅读(944) 评论(0) 推荐(0)

spark2.1.1创建Pipeline

摘要： Pipeline 为流程，是Spark创建机器学习的一个流程控制的类下面直接贴出创建的代码，以及整个流程第一种：第二种：阅读全文

posted @ 2017-05-16 12:36 大葱拌豆腐阅读(895) 评论(0) 推荐(0)

Spark Streaming里面使用文本分析模型

摘要：功能：接收来自kafka的数据，数据是一篇文章，来判断文章的类型，把判断的结果一并保存到Hbase，并把文章建立索引（没有代码只有一个空壳，可以自己实现，以后有机会了可能会补上）代码实现：阅读全文

posted @ 2017-05-16 11:59 大葱拌豆腐阅读(1034) 评论(0) 推荐(0)

Spark中文文本分析建模

摘要：实用的朴素贝叶斯模型建模建模过程主要是把文本转化成向量然后再作分析数据格式：阅读全文

posted @ 2017-05-16 11:55 大葱拌豆腐阅读(2083) 评论(0) 推荐(0)

Spark机器学习

摘要：这篇文章参考《Spark快速大数据分析》，归纳spark技术核心的rdd及MLlib以及其中几个重要库的使用。初始化操作 spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作，驱动器程序包含应用的main函阅读全文

posted @ 2017-05-16 11:31 大葱拌豆腐阅读(1229) 评论(1) 推荐(0)

基于 Spark 的文本情感分析

摘要：转载自：https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.html IBM 公司在 2015 年对外宣告了一个新的科技和商务时代的来临—认知时代。这个巨大的转变，阅读全文

posted @ 2017-05-16 10:54 大葱拌豆腐阅读(2352) 评论(0) 推荐(0)

2017年5月9日

Hadoop权限认证的执行流程

摘要： Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者（owner）和一个组（group）。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言，当读取这个文件时需要有r权限，当写入或者追加到文件时需要有w权限。对目录阅读全文

posted @ 2017-05-09 20:19 大葱拌豆腐阅读(9576) 评论(0) 推荐(1)

Java API操作HA方式下的Hadoop

摘要：通过java api连接Hadoop集群时，如果集群支持HA方式，那么可以通过如下方式设置来自动切换到活动的master节点上。其中，ClusterName 是可以任意指定的，跟集群配置无关，dfs.ha.namenodes.ClusterName也可以任意指定名称，有几个master就写几个，后面阅读全文

posted @ 2017-05-09 19:51 大葱拌豆腐阅读(3379) 评论(0) 推荐(0)

2017年4月25日

利用HBase的快照功能来修改表名

摘要： hbase的快照功能常常被用来做数据的恢复的，但是由于项目的特殊需求需要改hbase表的表名。在官网上通过快照功能来修改hbase表名的用法：下面展示用shell命令的和Java api两种方式： In versions 0.90.x of hbase and earlier, we had a 阅读全文

posted @ 2017-04-25 20:07 大葱拌豆腐阅读(754) 评论(0) 推荐(0)

2017年4月11日

hive两大表关联优化试验

摘要：呼叫结果(call_result)与销售历史(sale_history)的join优化： CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G 原逻辑 Map: 3255 Reduce: 950 Cumulative CPU: 238867.84 sec HDF 阅读全文

posted @ 2017-04-11 19:21 大葱拌豆腐阅读(1407) 评论(0) 推荐(0)

公告