BigData - 随笔分类 - WuLei吴磊

定期整理

摘要：Failed to rollback to checkpoint/savepoint hdfs. Cannot map checkpoint/savepoint state for operator to the new program, because the operator is not av 阅读全文

posted @ 2020-03-24 18:01 WuLei吴磊阅读(884) 评论(0) 推荐(0)

hadoop启动后jps命令后未找到NameNode服务

摘要：如题，按照官方文档启动部署hadoop， https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 或 https://www.cnblogs.com/hello-/artic 阅读全文

posted @ 2020-02-25 18:14 WuLei吴磊阅读(940) 评论(0) 推荐(0)

大型集团内部数据采集方案设计

摘要：当大型集团内部、如总公司和子公司之间需要进行数据交换、采集时，其中总公司是Hive数据源，两个NameNode，30个DataNode的高可用集群，子公司一般是Mysql数据源，总公司与各个子公司之间都是网络隔离的。现在我们首先考虑的业务场景是总公司对各个子公司进行数据采集，也就是子公司将mysq 阅读全文

posted @ 2019-09-19 09:44 WuLei吴磊阅读(528) 评论(0) 推荐(1)

NameNode服务异常:Timed out waiting 20000ms for a quorum of nodes to respond

摘要：FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: flush failed for required journal (JournalAndStream(mgr=QJM to [10.0.22.103:8485, 10.0. 阅读全文

posted @ 2019-08-13 20:44 WuLei吴磊阅读(1875) 评论(0) 推荐(0)

docker安装GreenPlum

摘要：https://my.oschina.net/xiaozhublog/blog/2249525 https://blog.csdn.net/TN947/article/details/78794297 想重新启动gp报错删除container sudo docker rm f91cf8a962ee 阅读全文

posted @ 2019-08-03 15:47 WuLei吴磊阅读(2366) 评论(0) 推荐(0)

个人工作杂记

摘要：一、某日SAAS环境磁盘水位过高，一共500G，已经被占用了450G以上，故查看hdfs各目录分别占用多少空间， 1、hadoop fs -help （若熟悉命令，可忽略） 2、hadoop fs -du -h / 发现是/hive下数据量突出 3、hadoop fs -du -h /hive 继续阅读全文

posted @ 2019-04-16 17:10 WuLei吴磊阅读(226) 评论(0) 推荐(0)

实时同步

摘要：近期开始接触真正的实时同步，之前接触的SparkStreaming偏重于实时计算，kafka和flume只能算简单的数据同步，如今正式开始做产品化的数据同步项目。特此记录一些知识点。客户收到磁盘阈值超限报警，进入服务器后，执行df -h可以查看服务器整体磁盘占用情况: 然后可以查看具体目录下的占比阅读全文

posted @ 2019-03-26 19:23 WuLei吴磊阅读(232) 评论(0) 推荐(0)

kafka

摘要：http://shiyanjun.cn/archives/915.html http://www.aboutyun.com/thread-11516-1-1.html https://blog.csdn.net/java_zone/article/details/52096797 https://b 阅读全文

posted @ 2018-05-09 16:12 WuLei吴磊阅读(95) 评论(0) 推荐(0)

Streaming从Spark2X迁移到Spark1.5 summary

摘要：配置文件的加载是一个难点，在local模式下非常容易，但是submit后一直报找不到文件，后来采用将properties文件放在加载类同一个package下，打包到同一个jar中解决。问题： ClassNotFoundException: org.apache.hadoop.hbase.ipc.c 阅读全文

posted @ 2018-04-14 20:26 WuLei吴磊阅读(481) 评论(0) 推荐(0)

Solr数据迁移

摘要：单机Solr部署在linux /opt目录下，运行一段时间后发现该目录分配的空间不足，而Solr的索引数据量较大，必须更改相关core下面的data目录，以改变索引存放的目录。找到相应的solrconfig.xml文件，将dataDir修改为自定义的目录，如/home/solrDate/kkrec 阅读全文

posted @ 2018-04-11 20:32 WuLei吴磊阅读(3777) 评论(0) 推荐(0)

How do you explain Machine Learning and Data Mining to non Computer Science people?

摘要：How do you explain Machine Learning and Data Mining to non Computer Science people? How do you explain Machine Learning and Data Mining to non Compute 阅读全文

posted @ 2018-04-10 21:57 WuLei吴磊阅读(242) 评论(0) 推荐(0)

Spark实战记录

摘要：~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~PipelineExample winutils.exe java.lang.NullPointException~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 在运行Spark ML管道 PipelineExample 样例代阅读全文

posted @ 2018-04-02 20:15 WuLei吴磊阅读(180) 评论(0) 推荐(0)

Python_summary

摘要：Q： python中出现IndentationError:unindent does not match any outer indentation levelA：复制代码的时候容易出现缩进错误，虽然看起来是缩进了，但是实际上没有。可以用Notepad++下的视图->显示符号->显示空格和制表符阅读全文

posted @ 2018-03-26 08:49 WuLei吴磊阅读(685) 评论(0) 推荐(0)

实时计算DStream下求平均值（reduceByKey or combineByKey）

摘要：对NC市的卡口数据进行分析，大概所有卡口每15秒接入的有效数据在3000条左右，现在产品经理要求对这些数据进行拥堵分析，通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来，然后根据卡口数据中的车牌和经过时间找到阅读全文

posted @ 2018-03-21 20:17 WuLei吴磊阅读(365) 评论(0) 推荐(0)

哎呀！做事的习惯要好啊！做事要谨慎啊！

摘要：本来进入大数据部门了，也沉淀了几个月的时间好好写代码，以为自己总算可以在徐总面前抬起头啦，也有徐总不太清楚但我能贡献自己的一份力，为部门的项目优化升级一下。结果早上的时候徐总调试redis代码的时候，发现怎么都没有数据。徐总念念有词，各种尝试，“这就奇怪了~” 坑的是我区分单机和集群版的redis 阅读全文

posted @ 2018-01-11 10:25 WuLei吴磊阅读(182) 评论(0) 推荐(0)

大数据项目(MTDAP)随想

摘要：Spark MLlib进行example测试的时候，总是编译不通过，报少包<Spark MLlib NoClassDefFoundError: org/apache/spark/ml/param/Param>，但是代码没有报错，也能够跳转过去，我重新Maven刷过，程序还是启不来。后来观察到pom. 阅读全文

posted @ 2017-12-19 13:16 WuLei吴磊阅读(283) 评论(0) 推荐(0)

IntelliJ IDEA导入多个eclipse项目到同一个workspace下 maven

该文被密码保护。

posted @ 2017-12-19 08:55 WuLei吴磊阅读(14) 评论(0) 推荐(0)

Flume:sink.type=hive

摘要：Flume以Kafka为Source，以Hive为Sink进行数据转存。业务背景：公司要求将某四川城市的卡口数据实时接入大数据平台中，历史数据可以通过Hive进行Load，也就是增量数据的对接问题。现场设备采集卡口的数据量在400万左右，不多。设备数据采集后由数据对接人员塞到Kafak中。思路：阅读全文

posted @ 2017-11-09 08:42 WuLei吴磊阅读(695) 评论(0) 推荐(0)

交通大数据应用平台的经验记录

摘要：WRONGTYPE Operation against a key holding the wrong kind of value 根本的就是redis同一个key的value值前后类型不一致，比如最开始是client.set("key1", "val1"); 第二次client.hset("key 阅读全文

posted @ 2017-10-13 09:28 WuLei吴磊阅读(249) 评论(0) 推荐(0)

ＨBase针对性问题汇总

摘要：Q： Hbase的rk设计，Hbase优化 a\rowkey:hbase三维存储中的关键(rowkey：行键，columnKey(family+quilaty)：列键，timestamp：时间戳) \rowkey字典排序、越短越好 \使用id+时间：9527+20160517 \使用hash散列阅读全文

posted @ 2017-09-06 14:20 WuLei吴磊阅读(499) 评论(0) 推荐(0)

随笔分类 - BigData

公告