摘要: 业务描述: 项目中需要对用户的holding文件进行处理,转成内部格式,并对关键业务项(如security)生成内部ID,为简化起见,此处将ID设置为UUID,文件样例如下,以“|”分割 对此文件,我们暂且只关注第3,第4列,分别表示security的cusip及symbol 1:Redis准备 因 阅读全文
posted @ 2018-04-23 17:48 黎明踏浪号 阅读(1313) 评论(0) 推荐(0)
摘要: 最近由于要使用Spark做POC,在本地搭建了相应的开发环境,Spark本身是使用Scala语言编写的,当然也可以使用java来开发spark项目,但使用scala语言来开发更加简洁,本文在IDEA开发工具中使用Maven来创建Scala工程 1:安装Java SDK,Scala,及IDEA 集成开 阅读全文
posted @ 2018-03-20 16:47 黎明踏浪号 阅读(380) 评论(0) 推荐(0)
摘要: TensorFlow在2/28/2018已经发布了1.6版,详细发布说明参考 Release TensorFlow 1.6.0,最新版能很好的支持在window平台上的安装与运行调试,根据系统的硬件显卡,提供了GPU及CPU版本,本文使用Anaconda来安装TensorFlow CPU环境,如果想 阅读全文
posted @ 2018-03-14 15:19 黎明踏浪号 阅读(5523) 评论(2) 推荐(0)
摘要: 一:概述 在大多数情况下,如果使用MapReduce进行batch处理,文件一般是存储在HDFS上的,但这里有个很重要的场景不能忽视,那就是对于大量的小文件的处理(此处小文件没有确切的定义,一般指文件大小比较小,比如5M以内的文件),而HDFS的文件块一般是64M,这将会影响到HDFS的性能,因为小 阅读全文
posted @ 2018-02-05 17:05 黎明踏浪号 阅读(1013) 评论(0) 推荐(0)
摘要: 前面我们搭建了Hadoop及HBase本地开发环境,(参见前文:Win7 64位系统上Hadoop单机模式的安装及开发环境搭建,Win7 64位系统上HBase单机模式的安装)多数情况下,对于MapReduce模型,其底层使用HDFS作为存储,在HDFS中,其NameNode节点保存的是文件的元数据 阅读全文
posted @ 2018-01-26 15:36 黎明踏浪号 阅读(6347) 评论(0) 推荐(0)
摘要: 在Win7以单机模式后安装好hadoop(参见前文 《Win7 64位系统上Hadoop单机模式的安装及开发环境搭建》),下面开始设置HBase的单机模式,HBase是一种类似Google BigTable的列式数据库,其底层存储可以使用HDFS,但也可以使用普通文件系统 HBase安装步骤 1:下 阅读全文
posted @ 2018-01-19 15:20 黎明踏浪号 阅读(2916) 评论(0) 推荐(0)
摘要: 操作系统:Win7 64位 Hadoop:2.7.4 中文分词工具包IKAnalyzer: 5.1.0 开发工具:Intellij IDEA 2017 Community 准备中文分词工具包 项目需要引入中文分词工具包IKAnalyzer,故第一步是对中文分词工具包的打包并安装到本地库,在这过程中参 阅读全文
posted @ 2018-01-17 14:44 黎明踏浪号 阅读(3538) 评论(3) 推荐(1)
摘要: 现在在window系统中安装hadoop,不需要再安装Cygwin等复杂的步骤,安装部署比以前简单了很多,以下是详细步骤: 1:安装JDK,设置好环境变量: 例如安装JDK1.8.0_144,在环境变量中添加JAVA_HOME: D:\Application\Java\jdk1.8.0_144,然后 阅读全文
posted @ 2018-01-17 10:57 黎明踏浪号 阅读(11944) 评论(0) 推荐(0)
摘要: Hadoop 2.7.4 + HBase 1.2.6 + ZooKeeper 3.4.10 配置 本文为上述配置的一部分,为方便阅读,故设为独立页面 下载hbase: https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/hbase-1.2 阅读全文
posted @ 2017-12-26 16:58 黎明踏浪号 阅读(19077) 评论(0) 推荐(0)
摘要: Hadoop 2.7.4 + HBase 1.2.6 + ZooKeeper 3.4.10 配置 本文为上述配置的一部分,为方便阅读,故设为独立页面 参考:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/Resou 阅读全文
posted @ 2017-12-26 16:10 黎明踏浪号 阅读(1093) 评论(0) 推荐(0)