会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Data and AI
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
11
下一页
2018年4月18日
Apache Phoenix Flume集成 -- JsonEventSerializer改进
摘要: Apache Phoenix官方提供了Flume集成插件,基于该插件我们可以将消息队列的数据插入到Phoenix,例如Kafka中的数据。官方提供了三种消息格式的Serialier: Regex, Json, CSV。我采用了Json,但是发现其中有很多问题不满足我们的需要,本文记录了改进的过程。
阅读全文
posted @ 2018-04-18 16:24 wlu
阅读(1134)
评论(2)
推荐(1)
2018年4月10日
Mapreduce atop Apache Phoenix (ScanPlan 初探)
摘要: 利用Mapreduce/hive查询Phoenix数据时如何划分partition? 的源码一看便知: 根据select查询语句创建查询计划,QueryPlan,实际是子类ScanPlan。 函数有一个特殊操作: 如果HBase表有多个Region,则会将一个 划分为多个,每个Region对应一个S
阅读全文
posted @ 2018-04-10 21:39 wlu
阅读(422)
评论(0)
推荐(0)
2018年4月2日
Spark中的Phoenix Dynamic Columns
摘要: 代码及使用示例:https://github.com/wlu mstr/spark phoenix dynamic phoenix dynamic columns HBase的数据模型是动态的,很多系统得益于这一特性。在使用了Phoenix后自然也希望继续使用动态schema特性,有幸,Phoeni
阅读全文
posted @ 2018-04-02 11:37 wlu
阅读(1081)
评论(0)
推荐(0)
2018年3月19日
cobub razor 安装及使用
摘要: server端安装及配置 apache2 + Mysql5.7 + php7 + redis 参见:http://docs.cobub.com/pages/viewpage.action?pageId=884864 可能需要额外安装: 安装完成后创建新的App并获取其app key。 其它注意点 安
阅读全文
posted @ 2018-03-19 13:22 wlu
阅读(1684)
评论(1)
推荐(0)
2018年3月2日
unicode 编解码记录
摘要: unicode 万国码。世界上所有的符号都有对应的Unicode code point。一般是2个字节。 这个字节可以通过任意中方式编码为二进制,例如用来保存到文件。一般通过UTF x(例如utf 8)来编码,因为UTF可以编码所有的Unicode code point。 举个例子:
阅读全文
posted @ 2018-03-02 09:45 wlu
阅读(243)
评论(0)
推荐(0)
2018年3月1日
KNIME + Python = 数据分析+报表全流程
摘要:
阅读全文
posted @ 2018-03-01 10:55 wlu
阅读(17788)
评论(0)
推荐(1)
2018年1月18日
Linux 下建立 SSH 隧道做 Socket 代理
摘要: 背景 需要解决本地访问内部集群中各台机器上的内部web服务,但是内部集群不能直接访问,只能通过edge node节点跳转。 前提:edge node可以通过ssh方式访问,在edge node上可以访问内部集群的各个服务。 解决方法 通过ssh隧道连接edge node,并开启动态代理隧道,同时在本
阅读全文
posted @ 2018-01-18 11:18 wlu
阅读(4373)
评论(0)
推荐(0)
2017年12月16日
zeppelin中运行spark streaming kakfa & 实时可视化
摘要: notebook方式运行spark程序是一种比较agile的方式,一方面可以体验像spark shell那样repl的便捷,同时可以借助notebook的作图能力实现快速数据可视化,非常方便快速验证和demo。notebook有两种选择,一种是ipython notebook,主要针对pyspark
阅读全文
posted @ 2017-12-16 12:39 wlu
阅读(1507)
评论(0)
推荐(0)
2017年11月16日
artificial neural network in spark MLLib
摘要: 神经网络模型 每个node包含两种操作:线性变换(仿射变换)和激发函数(activation function)。 其中仿射变换是通用的,而激发函数可以很多种,如下图。 MLLib中实现ANN 使用两层(Layer)来对应模型中的一层: AffineLayer 仿射变换: output = W ·
阅读全文
posted @ 2017-11-16 13:18 wlu
阅读(959)
评论(0)
推荐(0)
2017年11月13日
LogisticRegression in MLLib (PySpark + numpy+matplotlib可视化)
摘要: 参考'LogisticRegression in MLLib' (http://www.cnblogs.com/luweiseu/p/7809521.html) 通过pySpark MLlib训练logistic模型,再利用Matplotlib作图画出分类边界。 最终结果:
阅读全文
posted @ 2017-11-13 15:50 wlu
阅读(1734)
评论(0)
推荐(1)
上一页
1
2
3
4
5
6
7
8
···
11
下一页
公告