上一页 1 2 3 4 5 6 7 8 ··· 11 下一页
摘要: Apache Phoenix官方提供了Flume集成插件,基于该插件我们可以将消息队列的数据插入到Phoenix,例如Kafka中的数据。官方提供了三种消息格式的Serialier: Regex, Json, CSV。我采用了Json,但是发现其中有很多问题不满足我们的需要,本文记录了改进的过程。 阅读全文
posted @ 2018-04-18 16:24 wlu 阅读(1134) 评论(2) 推荐(1)
摘要: 利用Mapreduce/hive查询Phoenix数据时如何划分partition? 的源码一看便知: 根据select查询语句创建查询计划,QueryPlan,实际是子类ScanPlan。 函数有一个特殊操作: 如果HBase表有多个Region,则会将一个 划分为多个,每个Region对应一个S 阅读全文
posted @ 2018-04-10 21:39 wlu 阅读(422) 评论(0) 推荐(0)
摘要: 代码及使用示例:https://github.com/wlu mstr/spark phoenix dynamic phoenix dynamic columns HBase的数据模型是动态的,很多系统得益于这一特性。在使用了Phoenix后自然也希望继续使用动态schema特性,有幸,Phoeni 阅读全文
posted @ 2018-04-02 11:37 wlu 阅读(1081) 评论(0) 推荐(0)
摘要: server端安装及配置 apache2 + Mysql5.7 + php7 + redis 参见:http://docs.cobub.com/pages/viewpage.action?pageId=884864 可能需要额外安装: 安装完成后创建新的App并获取其app key。 其它注意点 安 阅读全文
posted @ 2018-03-19 13:22 wlu 阅读(1684) 评论(1) 推荐(0)
摘要: unicode 万国码。世界上所有的符号都有对应的Unicode code point。一般是2个字节。 这个字节可以通过任意中方式编码为二进制,例如用来保存到文件。一般通过UTF x(例如utf 8)来编码,因为UTF可以编码所有的Unicode code point。 举个例子: 阅读全文
posted @ 2018-03-02 09:45 wlu 阅读(243) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-03-01 10:55 wlu 阅读(17788) 评论(0) 推荐(1)
摘要: 背景 需要解决本地访问内部集群中各台机器上的内部web服务,但是内部集群不能直接访问,只能通过edge node节点跳转。 前提:edge node可以通过ssh方式访问,在edge node上可以访问内部集群的各个服务。 解决方法 通过ssh隧道连接edge node,并开启动态代理隧道,同时在本 阅读全文
posted @ 2018-01-18 11:18 wlu 阅读(4373) 评论(0) 推荐(0)
摘要: notebook方式运行spark程序是一种比较agile的方式,一方面可以体验像spark shell那样repl的便捷,同时可以借助notebook的作图能力实现快速数据可视化,非常方便快速验证和demo。notebook有两种选择,一种是ipython notebook,主要针对pyspark 阅读全文
posted @ 2017-12-16 12:39 wlu 阅读(1507) 评论(0) 推荐(0)
摘要: 神经网络模型 每个node包含两种操作:线性变换(仿射变换)和激发函数(activation function)。 其中仿射变换是通用的,而激发函数可以很多种,如下图。 MLLib中实现ANN 使用两层(Layer)来对应模型中的一层: AffineLayer 仿射变换: output = W · 阅读全文
posted @ 2017-11-16 13:18 wlu 阅读(959) 评论(0) 推荐(0)
摘要: 参考'LogisticRegression in MLLib' (http://www.cnblogs.com/luweiseu/p/7809521.html) 通过pySpark MLlib训练logistic模型,再利用Matplotlib作图画出分类边界。 最终结果: 阅读全文
posted @ 2017-11-13 15:50 wlu 阅读(1734) 评论(0) 推荐(1)
上一页 1 2 3 4 5 6 7 8 ··· 11 下一页