随笔分类 -  大数据-spark

摘要:使用sbt 0.13.5 wget http://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.5/sbt-launch.jar 新建sbt脚本在/usr/local/sbt/ 下 并加入执行权限。 #!/ 阅读全文
posted @ 2019-04-10 12:30 Ray_lei 阅读(297) 评论(0) 推荐(0)
摘要:创建hadoop用户同时指定使用 /bin/bash 作为 hadoop的shell: useradd -m hadoop -s /bin/bash 为hadoop 设置密码。 sudo passwd hadoop 为 hadoop 用户增加管理员权限,方便部署 sudo adduser hadoo 阅读全文
posted @ 2018-11-23 09:22 Ray_lei 阅读(859) 评论(0) 推荐(0)
摘要:在使用jdbc开启pyspark shell 下载jar包:https://dev.mysql.com/downloads/connector/j/ tar -zxf mysql-connector-java-8.0.13.tar.gz /usr/local/spark/jars/ 在启动pyspa 阅读全文
posted @ 2018-11-20 16:21 Ray_lei 阅读(2046) 评论(0) 推荐(1)
摘要:注意在pyspark中,要加载本地文件,必须采用“file:///”开头的这种格式执行第一条命令以后,并不会马上显示结果,因为,Spark采用惰性机制,只有遇到“行动”类型的操作,才会从头到尾执行所有操作。所以,下面我们执行一条“行动”类型的语句,就可以看到结果 eg: 执行: ./bin/kafk 阅读全文
posted @ 2018-10-24 11:26 Ray_lei 阅读(168) 评论(0) 推荐(0)
摘要:以下操作均为使用非root用户进行。 vim ~/.bashrc 在文件中添加: export PYSPARK_PYTHON=/usr/local/bin/python3 指定pyspark启动时使用的python版本, #export PYSPARK_DRIVER_PYTHON=ipython3 阅读全文
posted @ 2018-10-18 10:08 Ray_lei 阅读(6940) 评论(0) 推荐(0)