定期整理
摘要:Failed to rollback to checkpoint/savepoint hdfs. Cannot map checkpoint/savepoint state for operator to the new program, because the operator is not av
阅读全文
hadoop启动后jps命令后未找到NameNode服务
摘要:如题,按照官方文档启动部署hadoop, https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 或 https://www.cnblogs.com/hello-/artic
阅读全文
大型集团内部数据采集方案设计
摘要:当大型集团内部、如总公司和子公司之间需要进行数据交换、采集时,其中总公司是Hive数据源,两个NameNode,30个DataNode的高可用集群,子公司一般是Mysql数据源,总公司与各个子公司之间都是网络隔离的。 现在我们首先考虑的业务场景是总公司对各个子公司进行数据采集,也就是子公司将mysq
阅读全文
NameNode服务异常:Timed out waiting 20000ms for a quorum of nodes to respond
摘要:FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: flush failed for required journal (JournalAndStream(mgr=QJM to [10.0.22.103:8485, 10.0.
阅读全文
docker安装GreenPlum
摘要:https://my.oschina.net/xiaozhublog/blog/2249525 https://blog.csdn.net/TN947/article/details/78794297 想重新启动gp报错 删除container sudo docker rm f91cf8a962ee
阅读全文
个人工作杂记
摘要:一、某日SAAS环境磁盘水位过高,一共500G,已经被占用了450G以上,故查看hdfs各目录分别占用多少空间, 1、hadoop fs -help (若熟悉命令,可忽略) 2、hadoop fs -du -h / 发现是/hive下数据量突出 3、hadoop fs -du -h /hive 继续
阅读全文
实时同步
摘要:近期开始接触真正的实时同步,之前接触的SparkStreaming偏重于实时计算,kafka和flume只能算简单的数据同步,如今正式开始做产品化的数据同步项目。特此记录一些知识点。 客户收到磁盘阈值超限报警,进入服务器后,执行df -h可以查看服务器整体磁盘占用情况: 然后可以查看具体目录下的占比
阅读全文
kafka
摘要:http://shiyanjun.cn/archives/915.html http://www.aboutyun.com/thread-11516-1-1.html https://blog.csdn.net/java_zone/article/details/52096797 https://b
阅读全文
Streaming从Spark2X迁移到Spark1.5 summary
摘要:配置文件的加载是一个难点,在local模式下非常容易,但是submit后一直报找不到文件,后来采用将properties文件放在加载类同一个package下,打包到同一个jar中解决。 问题: ClassNotFoundException: org.apache.hadoop.hbase.ipc.c
阅读全文
Solr数据迁移
摘要:单机Solr部署在linux /opt目录下,运行一段时间后发现该目录分配的空间不足,而Solr的索引数据量较大,必须更改相关core下面的data目录,以改变索引存放的目录。 找到相应的solrconfig.xml文件,将dataDir修改为自定义的目录,如/home/solrDate/kkrec
阅读全文
How do you explain Machine Learning and Data Mining to non Computer Science people?
摘要:How do you explain Machine Learning and Data Mining to non Computer Science people? How do you explain Machine Learning and Data Mining to non Compute
阅读全文
Spark实战记录
摘要:~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~PipelineExample winutils.exe java.lang.NullPointException~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 在运行Spark ML管道 PipelineExample 样例代
阅读全文
Python_summary
摘要:Q: python中出现IndentationError:unindent does not match any outer indentation levelA:复制代码的时候容易出现缩进错误,虽然看起来是缩进了,但是实际上没有。可以用Notepad++下的 视图->显示符号->显示空格和制表符
阅读全文
实时计算DStream下求平均值(reduceByKey or combineByKey)
摘要:对NC市的卡口数据进行分析,大概所有卡口每15秒接入的有效数据在3000条左右,现在产品经理要求对这些数据进行拥堵分析,通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来,然后根据卡口数据中的车牌和经过时间找到
阅读全文
哎呀!做事的习惯要好啊!做事要谨慎啊!
摘要:本来进入大数据部门了,也沉淀了几个月的时间好好写代码,以为自己总算可以在徐总面前抬起头啦,也有徐总不太清楚但我能贡献自己的一份力,为部门的项目优化升级一下。 结果早上的时候徐总调试redis代码的时候,发现怎么都没有数据。徐总念念有词,各种尝试,“这就奇怪了~” 坑的是我区分单机和集群版的redis
阅读全文
大数据项目(MTDAP)随想
摘要:Spark MLlib进行example测试的时候,总是编译不通过,报少包<Spark MLlib NoClassDefFoundError: org/apache/spark/ml/param/Param>,但是代码没有报错,也能够跳转过去,我重新Maven刷过,程序还是启不来。后来观察到pom.
阅读全文
Flume:sink.type=hive
摘要:Flume以Kafka为Source,以Hive为Sink进行数据转存。 业务背景:公司要求将某四川城市的卡口数据实时接入大数据平台中,历史数据可以通过Hive进行Load,也就是增量数据的对接问题。现场设备采集卡口的数据量在400万左右,不多。设备数据采集后由数据对接人员塞到Kafak中。 思路:
阅读全文
交通大数据应用平台的经验记录
摘要:WRONGTYPE Operation against a key holding the wrong kind of value 根本的就是redis同一个key的value值前后类型不一致,比如最开始是client.set("key1", "val1"); 第二次client.hset("key
阅读全文
HBase针对性问题汇总
摘要:Q: Hbase的rk设计,Hbase优化 a\rowkey:hbase三维存储中的关键(rowkey:行键 ,columnKey(family+quilaty):列键 ,timestamp:时间戳) \rowkey字典排序、越短越好 \使用id+时间:9527+20160517 \使用hash散列
阅读全文