04 2017 档案
scala学习--难点
摘要:1 scala中的隐式转换,隐式参数与隐式类 隐式参数:使用implicit关键字标志一个值,变量或者函数参数为隐含的。 这是显示的增加参数 下面使用隐式: 标记规则:使用implicit修饰的,如 什么时候用隐式转换? 1 当方法中的参数类型与实际的类型不一致时 隐式参数,函数可以直接得到。def
阅读全文
scala基础--01
摘要:scala语言很简洁,让人看起来很舒服的感觉,例如查看字符串中是否存在大写字符, val nameHasUpper=name.exist(_.isUpperCase)一句话就解决。 例如wordcount val rdd=sc.textFile("").filter(_.split("\t")).m
阅读全文
平台调优方案
摘要:存在的问题: 1 启动hive后等待资源的时间 2 根据输入文件的大小,map task 的个数是变化的,reduce始终是30,如何优化map的个数,map个数与reduce个数之间的关系比例? Map 执行到百分之多少的时候,reduce可以进行?有个参数比例设置? 调整map和reduce 任
阅读全文
beeline on spark 自动重启--脚本
摘要:#! /bin/bash #iplist=(10.130.2.20) function monitorbdcmagic(){ source /etc/profile line=`sudo lsof -i :11000| grep *:irisa | wc -l` if [[ $line -eq 1
阅读全文
安装rundeck脚本
摘要:#!/bin/bash user=roothost=bdcv29#安装rundeck,使用root用户scp rundeck-launcher-2.6.9.jar $host:/home/$user; ssh -t -p 22 $host "sudo sucd /optmkdir /opt/rund
阅读全文
杀死所有的kitchen进程
摘要:#! /bin/bash #kill 所有kitchen 进程iplist=(10.130.2.245 ) function killkitchen(){ pid=`ps aux | grep kitchen.sh | awk '{ if ($11!=grep) {print $2;}}'| wc
阅读全文
使用top 监控系统信息
摘要:#!/bin/bash dir="/auto_cron/cron-running/dp/processInfoCollection"logdir="/mnt/diskb/auto_cron_logs/cron-running-logs/dp/processInfoCollection" time=`
阅读全文
对磁盘进行分区相关脚本
摘要:#!/bin/bash #修改分区大小path=/homesize=20Gsize1=10G df -hsudo umount $pathsudo e2fsck -f /dev/mapper/VolGroup-lv_homesudo resize2fs -p /dev/mapper/VolGroup
阅读全文
新机器初始化--脚本
摘要:#!/bin/sh#将现有机器上的一些配置传送到新的机器上 #CDH#mkdir -p /opt/cloudera/ host=bdcv191oldhostname=`hostname`sed -i 's/$oldhostname/$host/g' /etc/sysconfig/network #s
阅读全文
CDH迁移中元数据库的备份--脚本
摘要:#备份数据库pg_dump -h localhost -p 7432 -U scm > /tmp/scm_server_db_backup.$(date +%Y%m%d)#并记住db.properties 中的密码 在/etc/cloudera-scm-server/db.properties中 s
阅读全文
备份mysql数据库以及文件--脚本
摘要:#!/bin/sh today=`date --date='0 days ago' +%Y%m%d`day_del=`date --date='100 days ago' +%Y%m%d` mysql_dir_rep=/mnt/diskb/Backup/mysqlconf_dir_rep=/mnt/
阅读全文
linux 配置ssh免密码登录脚本
摘要:首先安装expect yum install expect yum install expect-devel yum install tcl ssh-keygen -t rsa -P '' -f /home/dp/.ssh/id_rsa cat /home/dp/.ssh/id_rsa.pub >/
阅读全文
Linux 同步时间脚本
摘要:#!/bin/sh #send hosts to all node iplist=(10.130.2.2110.130.2.2210.130.2.4010.130.2.4110.130.2.4210.130.2.4310.130.2.4410.130.2.4510.130.2.4910.130.2.
阅读全文
基本的ssh传文件脚本
摘要:#! /bin/bash iplist=(10.130.2.4010.130.2.4110.130.2.4210.130.2.4410.130.2.4510.130.2.4910.130.2.5010.130.2.5110.130.2.5310.130.2.5410.130.2.5510.130.2
阅读全文
添加自启动程序
摘要:touch /etc/rc.d/init.d/rundeckdecho "#!/bin/bash sh /opt/rundeck/server/sbin/rundeckd start" > /etc/rc.d/init.d/rundeckd chown -R root:root /etc/rc.d/
阅读全文
记录下没有解决的错误(CDH 由于小文件数太多造成的)
摘要:1 NodeManager 中GC收集时间占的比例过多。Detected pause in JVM or host machine (eg GC): pause of approximately 13245msGC pool 'ConcurrentMarkSweep' had collection(
阅读全文
两个NameNode都为StandBy模式
摘要:报错如下: 解决办法: /usr/bin/Zookeeper-client.sh ls / rmr /hadoop-ha 重新hdfs zkfc –formatZK , 并添加配置:
阅读全文
挂载hdfs
摘要:报错如下: ls /hdfs ls: 无法访问/hdfs: 传输端点尚未连接 解决办法: lsof | grep /hdfs 找到相关进程kil -9 $id umount /hdfshadoop-fuse-dfs dfs://nameservice1 /hdfs //重新挂载
阅读全文
设置rundeck 内存,不然导致界面打开缓慢
摘要:报错: rundeck gc overhead limit exceeded 内存满了,释放内存。或者修改rundeck java 虚拟机参数export RDECK_JVM="$RDECK_JVM -Xmx1024m -Xms512m -XX:MaxPermSize=1024m -server"
阅读全文
添加sudo权限脚本
摘要:给用户添加sudo 权限脚本: userNameList=(dp dam das bidw) ; for userName in ${userNameList[*]}; do echo $userName ' ALL=(ALL) NOPASSWD: ALL,!/bin/su' > /etc/sudo
阅读全文
29.Rundeck 中任务显示成功,其实并未执行成功
摘要:报错如下: 因为在配置时默认为stub模式执行,只是在本地cp 所以要修改project的配置,vi project.properties service.NodeExecutor.default.provider=jsch-ssh service.FileCopier.default.provid
阅读全文
ping 百度不通
摘要:1 修改/etc/reslov.conf添加;generated by /sbin/dhclient-scriptnameserver 8.8.8.8nameserver 4.4.4.4 1、service NetworkManager stop2、service network restart 3
阅读全文
记录CDH上修改的一些配置
摘要:1 加大map,与reduce执行内存,由2改为3 2 yarn.nodemanager.vmem-pmem-ratio默认参数是2.1 调大可以减少物理内存出现不足的情况。只要参数值*分配的内存>需要的内存值,就不会报错。 3 添加spark shuffle 4 hbase region 大小设置
阅读全文
夜间Rundeck 调度,ssh 出现断开连接等问题
摘要:报错如下: Failed: SSHProtocolFailure: Session.connect: java.net.SocketException: Connection reset connection is closed by foreign host 解决办法: Ssh 连接的问题 修改/
阅读全文
HDFS 下更改组权限
摘要:chgrp -r 组名 文件名 chgrp -R stage /hdfs/dw/stage/ 修改hdfs上文件组为stage
阅读全文
Linux 下最大文件数等限制
摘要:操作如下: ulimit -a #查看现有各个限制值情况 ulimit -n #查看现有打开文件打开数量最大值 cat /proc/sys/fs/file-max #查看本Linux最大打开文件打开数限制 echo ' * soft nofile 409600 ' >> /etc/security/
阅读全文
spark-shell 启动失败,显示端口问题
摘要:应该是端口问题,找不到spark节点。手动设置端口号 spark-shell --conf spark.shuffle.service.enabled=true --conf spark.replClassServer.port=15002
阅读全文
监控spark-sql 等脚本
摘要:#!/bin/bash iplist=( #10.130.2.20 10.130.2.22 10.130.2.40 10.130.2.41 10.130.2.42 10.130.2.44 10.130.2.45) kill -9 `lsof -i:11000|awk 'NR>1 {print $2}
阅读全文
spark 相关配置 shuffle 相关配置选项
摘要:在master的/conf/spark-defaults.conf中配置 spark.shuffle.service.enabled true spark.shuffle.service.port 7337 但是在从节点的spark-defaults.conf中注释上面两个配置选项,不然web 界面
阅读全文
spark on Yarn 语句
摘要:spark-shell on Yarn /opt/spark-1.6.1-bin-hadoop2.6/bin/spark-shell --master yarn --deploy-mode client --conf spark.shuffle.service.enabled=true --conf
阅读全文
使用hive thriftserver 连接spark sql
摘要:需求:使用spark sql 的执行引擎来操作hive数据仓库中的数据,使用hive thriftserver 服务 cd /opt/modules/spark-1.6.1-bin-hadoop2.6/sbin/sudo vim start-thriftserver-withJDBC.sh修改如下:
阅读全文
HBase 报错系列之region is not online
摘要:报错信息: ERROR org.apache.hadoop.hbase.regionserver.HRegionServer: Received CLOSE for a region which is not online, and we're not opening. 2016-12-07 16:
阅读全文
HBase 表迁移中对丢失的表检查使用的语句
摘要:在进行表检查时报错: org.apache.hadoop.hbase.TableNotFoundException: ods_matchinfo 改表丢失了 将报错的表删除,执行hbase hbck -fixMeta hbase hbck –fixAssignments 直到都没有报错。 解决命令如
阅读全文
HBase报错系列之建表问题
摘要:问题描述:HBase建表时 ERROR: Table already exists: ods_yz_trader_transactionsd_1! 删除此表时报:table not exists 解决办法: 1 查看hdfs 相应的目录下是否有该表 hdfs dfs -ls /hbases/data
阅读全文
强制命令-hdfs 主备间切换
摘要:报错: 两个Namenode 都处于Standby状态,HDFS使用失败 查看hdfs-site.xml 中serviceid 执行 sudo -u hdfs hdfs haadmin -transitionToActive --forcemanual +serviceid
阅读全文
未解决-hive之drop 表分区失败
摘要:报错如下: 报错说root也没有权限,可能是当初建表的时候问题?还是hive 元数据库中的权限问题? 求解答
阅读全文
hive 之简单查询报错
摘要:报错如下: 查看表数据存储的位置,文件情况发现hdfs 下该.gz压缩文件出现问题 重新导入 load data local inpath '/home/dp/db_apptrack_mobile_product.csv' overwrite into table stage.mobile_prod
阅读全文
hive 之start hiveServer2 ,thriftServer失败
摘要:报错信息如下: ERROR org.apache.hive.service.cli.thrift.ThriftCLIService: [Thread-11]: Error starting HiveServer2: could not start ThriftBinaryCLIService org
阅读全文
sqoop 导入mysql中表存在联合主键
摘要:将hdfs 中数据导入mysql sqoop export --connect jdbc:mysql://10.130.2.245:3306/test --update-key "id,name" --update-mode allowinsert --username dp --password
阅读全文
hive metastore Server 出现异常
摘要:报错信息: 常见问题分析: 1 hive metastore 数据库中用户名或者密码出现更改,并且重启了hive,导致生效但是CDH下没有及时更改hive metastore设置密码 2 Mysql 的连接驱动“ mysql-connector-java-5.1.26-bin.jar ”缺失。该驱动
阅读全文
hiveF 函数解析时间问题
摘要:#!/bin/bashsource /etc/profileupdatetime=`date --date='0 days ago' +“%Y-%m-%d %H:%M:%S"`echo "updatetime: "${updatetime}hiveF /auto_cron/cron-running/
阅读全文
hive 动态分区数设置
摘要:当对hive分区未做设置时,报错如下: Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create to
阅读全文
sqoop 操作从hdfs 导入到mysql中语句
摘要:将hdfs下/dw/dms/usr_trgt下的文件导入到mysql中test数据库下usr_trgt表中 sqoop-export --connect jdbc:mysql://mysqlDB:3306/test --username biadmin --password Abcd1234 --t
阅读全文
hive 锁表问题
摘要:报错如下: Unable to acquire IMPLICIT, EXCLUSIVE lock dms@pc_user_msg@month=201611 after 100 attempts. 显示dms库下的pc_user_msg表分区month=201611被锁住了, 查看是否被锁: show
阅读全文
在hive中直接对timestamp类型取max报错
摘要:之前直接对timestamp类型做max操作, select id,max(updatetime) updatetime from his.tag group by id; 结果查询的结果有的显示为1970-01-01,如下图: 解决办法: 先将timestamp类型用unix_timestamp函
阅读全文
浙公网安备 33010602011771号