随笔分类 - 大数据
摘要:source /usr/hdp/3.3.1.0-002/spark2/bin/load-spark-env.sh nohup jupyter notebook --no-browser --port 18888 --ip 0.0.0.0 --allow-root --NotebookApp.toke
阅读全文
摘要:# 仓库地址 https://github.com/code-ssd/ambari-in-docker 如果安装全部组件,建议32G内存。安装常用组件大约会占用15G内存。下面hadoop三节点,然后关闭了hbase约15G内存  driver.get('ht
阅读全文
摘要:从语料中自动挖掘短语 https://github.com/shangjingbo1226/AutoPhrase 预测搜索短语可采用FST结构, https://blog.csdn.net/vivian_ll/article/details/95049652 https://www.youtube.
阅读全文
摘要:相比于pandas,pyspark的dataframe的接口和sql类似,比较容易上手。 搭建python3环境 建议使用miniconda3 下载地址:https://mirrors.bfsu.edu.cn/anaconda/miniconda/ 选择py37版本 conda镜像配置:https:
阅读全文
摘要:下载地址 https://archive.cloudera.com/hwx-sandbox/hdp/hdp-3.0.1/HDP_3.0.1_vmware_181205.ovavmware导入即可,网络使用桥接,不然可能无法打开。 文档 https://www.cloudera.com/tutoria
阅读全文
摘要:1.打包python环境 建议使用conda conda克隆环境 conda create -n prod_env --clone base 进入conda的miniconda3/envs # 打包python环境 zip -r prod_env.zip prod_env 2.提交任务 sh脚本 e
阅读全文

浙公网安备 33010602011771号