随笔分类 - 大数据-spark
摘要:使用sbt 0.13.5 wget http://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.5/sbt-launch.jar 新建sbt脚本在/usr/local/sbt/ 下 并加入执行权限。 #!/
阅读全文
摘要:创建hadoop用户同时指定使用 /bin/bash 作为 hadoop的shell: useradd -m hadoop -s /bin/bash 为hadoop 设置密码。 sudo passwd hadoop 为 hadoop 用户增加管理员权限,方便部署 sudo adduser hadoo
阅读全文
摘要:在使用jdbc开启pyspark shell 下载jar包:https://dev.mysql.com/downloads/connector/j/ tar -zxf mysql-connector-java-8.0.13.tar.gz /usr/local/spark/jars/ 在启动pyspa
阅读全文
摘要:注意在pyspark中,要加载本地文件,必须采用“file:///”开头的这种格式执行第一条命令以后,并不会马上显示结果,因为,Spark采用惰性机制,只有遇到“行动”类型的操作,才会从头到尾执行所有操作。所以,下面我们执行一条“行动”类型的语句,就可以看到结果 eg: 执行: ./bin/kafk
阅读全文
摘要:以下操作均为使用非root用户进行。 vim ~/.bashrc 在文件中添加: export PYSPARK_PYTHON=/usr/local/bin/python3 指定pyspark启动时使用的python版本, #export PYSPARK_DRIVER_PYTHON=ipython3
阅读全文

浙公网安备 33010602011771号