• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 众包
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
暗时间&量变
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

随笔分类 -  BigData

1 2 下一页

对FusionInsight平台上以Spark为主的学习
 
定期整理
摘要:Failed to rollback to checkpoint/savepoint hdfs. Cannot map checkpoint/savepoint state for operator to the new program, because the operator is not av 阅读全文
posted @ 2020-03-24 18:01 WuLei吴磊 阅读(884) 评论(0) 推荐(0)
hadoop启动后jps命令后未找到NameNode服务
摘要:如题,按照官方文档启动部署hadoop, https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 或 https://www.cnblogs.com/hello-/artic 阅读全文
posted @ 2020-02-25 18:14 WuLei吴磊 阅读(940) 评论(0) 推荐(0)
大型集团内部数据采集方案设计
摘要:当大型集团内部、如总公司和子公司之间需要进行数据交换、采集时,其中总公司是Hive数据源,两个NameNode,30个DataNode的高可用集群,子公司一般是Mysql数据源,总公司与各个子公司之间都是网络隔离的。 现在我们首先考虑的业务场景是总公司对各个子公司进行数据采集,也就是子公司将mysq 阅读全文
posted @ 2019-09-19 09:44 WuLei吴磊 阅读(528) 评论(0) 推荐(1)
NameNode服务异常:Timed out waiting 20000ms for a quorum of nodes to respond
摘要:FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: flush failed for required journal (JournalAndStream(mgr=QJM to [10.0.22.103:8485, 10.0. 阅读全文
posted @ 2019-08-13 20:44 WuLei吴磊 阅读(1875) 评论(0) 推荐(0)
docker安装GreenPlum
摘要:https://my.oschina.net/xiaozhublog/blog/2249525 https://blog.csdn.net/TN947/article/details/78794297 想重新启动gp报错 删除container sudo docker rm f91cf8a962ee 阅读全文
posted @ 2019-08-03 15:47 WuLei吴磊 阅读(2366) 评论(0) 推荐(0)
个人工作杂记
摘要:一、某日SAAS环境磁盘水位过高,一共500G,已经被占用了450G以上,故查看hdfs各目录分别占用多少空间, 1、hadoop fs -help (若熟悉命令,可忽略) 2、hadoop fs -du -h / 发现是/hive下数据量突出 3、hadoop fs -du -h /hive 继续 阅读全文
posted @ 2019-04-16 17:10 WuLei吴磊 阅读(226) 评论(0) 推荐(0)
实时同步
摘要:近期开始接触真正的实时同步,之前接触的SparkStreaming偏重于实时计算,kafka和flume只能算简单的数据同步,如今正式开始做产品化的数据同步项目。特此记录一些知识点。 客户收到磁盘阈值超限报警,进入服务器后,执行df -h可以查看服务器整体磁盘占用情况: 然后可以查看具体目录下的占比 阅读全文
posted @ 2019-03-26 19:23 WuLei吴磊 阅读(232) 评论(0) 推荐(0)
kafka
摘要:http://shiyanjun.cn/archives/915.html http://www.aboutyun.com/thread-11516-1-1.html https://blog.csdn.net/java_zone/article/details/52096797 https://b 阅读全文
posted @ 2018-05-09 16:12 WuLei吴磊 阅读(95) 评论(0) 推荐(0)
Streaming从Spark2X迁移到Spark1.5 summary
摘要:配置文件的加载是一个难点,在local模式下非常容易,但是submit后一直报找不到文件,后来采用将properties文件放在加载类同一个package下,打包到同一个jar中解决。 问题: ClassNotFoundException: org.apache.hadoop.hbase.ipc.c 阅读全文
posted @ 2018-04-14 20:26 WuLei吴磊 阅读(481) 评论(0) 推荐(0)
Solr数据迁移
摘要:单机Solr部署在linux /opt目录下,运行一段时间后发现该目录分配的空间不足,而Solr的索引数据量较大,必须更改相关core下面的data目录,以改变索引存放的目录。 找到相应的solrconfig.xml文件,将dataDir修改为自定义的目录,如/home/solrDate/kkrec 阅读全文
posted @ 2018-04-11 20:32 WuLei吴磊 阅读(3777) 评论(0) 推荐(0)
How do you explain Machine Learning and Data Mining to non Computer Science people?
摘要:How do you explain Machine Learning and Data Mining to non Computer Science people? How do you explain Machine Learning and Data Mining to non Compute 阅读全文
posted @ 2018-04-10 21:57 WuLei吴磊 阅读(242) 评论(0) 推荐(0)
Spark实战记录
摘要:~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~PipelineExample winutils.exe java.lang.NullPointException~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 在运行Spark ML管道 PipelineExample 样例代 阅读全文
posted @ 2018-04-02 20:15 WuLei吴磊 阅读(180) 评论(0) 推荐(0)
Python_summary
摘要:Q: python中出现IndentationError:unindent does not match any outer indentation levelA:复制代码的时候容易出现缩进错误,虽然看起来是缩进了,但是实际上没有。可以用Notepad++下的 视图->显示符号->显示空格和制表符 阅读全文
posted @ 2018-03-26 08:49 WuLei吴磊 阅读(685) 评论(0) 推荐(0)
实时计算DStream下求平均值(reduceByKey or combineByKey)
摘要:对NC市的卡口数据进行分析,大概所有卡口每15秒接入的有效数据在3000条左右,现在产品经理要求对这些数据进行拥堵分析,通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来,然后根据卡口数据中的车牌和经过时间找到 阅读全文
posted @ 2018-03-21 20:17 WuLei吴磊 阅读(365) 评论(0) 推荐(0)
哎呀!做事的习惯要好啊!做事要谨慎啊!
摘要:本来进入大数据部门了,也沉淀了几个月的时间好好写代码,以为自己总算可以在徐总面前抬起头啦,也有徐总不太清楚但我能贡献自己的一份力,为部门的项目优化升级一下。 结果早上的时候徐总调试redis代码的时候,发现怎么都没有数据。徐总念念有词,各种尝试,“这就奇怪了~” 坑的是我区分单机和集群版的redis 阅读全文
posted @ 2018-01-11 10:25 WuLei吴磊 阅读(182) 评论(0) 推荐(0)
大数据项目(MTDAP)随想
摘要:Spark MLlib进行example测试的时候,总是编译不通过,报少包<Spark MLlib NoClassDefFoundError: org/apache/spark/ml/param/Param>,但是代码没有报错,也能够跳转过去,我重新Maven刷过,程序还是启不来。后来观察到pom. 阅读全文
posted @ 2017-12-19 13:16 WuLei吴磊 阅读(283) 评论(0) 推荐(0)
IntelliJ IDEA导入多个eclipse项目到同一个workspace下 maven
该文被密码保护。
posted @ 2017-12-19 08:55 WuLei吴磊 阅读(14) 评论(0) 推荐(0)
Flume:sink.type=hive
摘要:Flume以Kafka为Source,以Hive为Sink进行数据转存。 业务背景:公司要求将某四川城市的卡口数据实时接入大数据平台中,历史数据可以通过Hive进行Load,也就是增量数据的对接问题。现场设备采集卡口的数据量在400万左右,不多。设备数据采集后由数据对接人员塞到Kafak中。 思路: 阅读全文
posted @ 2017-11-09 08:42 WuLei吴磊 阅读(695) 评论(0) 推荐(0)
交通大数据应用平台的经验记录
摘要:WRONGTYPE Operation against a key holding the wrong kind of value 根本的就是redis同一个key的value值前后类型不一致,比如最开始是client.set("key1", "val1"); 第二次client.hset("key 阅读全文
posted @ 2017-10-13 09:28 WuLei吴磊 阅读(249) 评论(0) 推荐(0)
HBase针对性问题汇总
摘要:Q: Hbase的rk设计,Hbase优化 a\rowkey:hbase三维存储中的关键(rowkey:行键 ,columnKey(family+quilaty):列键 ,timestamp:时间戳) \rowkey字典排序、越短越好 \使用id+时间:9527+20160517 \使用hash散列 阅读全文
posted @ 2017-09-06 14:20 WuLei吴磊 阅读(499) 评论(0) 推荐(0)
 

1 2 下一页

公告


博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3