随笔分类 -  大数据

摘要:source /usr/hdp/3.3.1.0-002/spark2/bin/load-spark-env.sh nohup jupyter notebook --no-browser --port 18888 --ip 0.0.0.0 --allow-root --NotebookApp.toke 阅读全文
posted @ 2023-08-24 13:06 一支小白 阅读(48) 评论(0) 推荐(0)
摘要:# 仓库地址 https://github.com/code-ssd/ambari-in-docker 如果安装全部组件,建议32G内存。安装常用组件大约会占用15G内存。下面hadoop三节点,然后关闭了hbase约15G内存 ![](https://img2023.cnblogs.com/blo 阅读全文
posted @ 2023-05-19 21:03 一支小白 阅读(905) 评论(1) 推荐(0)
摘要:单机环境!!!单ip 如果 多ip可能有些默认为主机名的配置要注意,或者直接偷懒 /etc/hosts配置 当前主机名 ip 而不是hadoop ip 备注 主机名是 记得在/etc/hosts里添加 hadoop ip 环境变量 current_dir=/opt/bigdata #HADOOP_H 阅读全文
posted @ 2022-07-31 18:19 一支小白 阅读(375) 评论(0) 推荐(0)
摘要:「CDH」https://www.aliyundrive.com/s/xLpG9dBv1Qc 点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速播放。 迅雷下载https://archive.cloudera.com/cdh6/6.3.2/parcels/C 阅读全文
posted @ 2022-01-11 23:01 一支小白 阅读(2024) 评论(0) 推荐(0)
摘要:# 以获取API商城 - IP查询服务的timestamp签名为例# 是seleniumwire 不是 selenium import time from seleniumwire import webdriver driver = webdriver.Chrome() driver.get('ht 阅读全文
posted @ 2021-04-08 22:18 一支小白 阅读(8050) 评论(0) 推荐(0)
摘要:从语料中自动挖掘短语 https://github.com/shangjingbo1226/AutoPhrase 预测搜索短语可采用FST结构, https://blog.csdn.net/vivian_ll/article/details/95049652 https://www.youtube. 阅读全文
posted @ 2020-12-06 11:40 一支小白 阅读(293) 评论(0) 推荐(0)
摘要:相比于pandas,pyspark的dataframe的接口和sql类似,比较容易上手。 搭建python3环境 建议使用miniconda3 下载地址:https://mirrors.bfsu.edu.cn/anaconda/miniconda/ 选择py37版本 conda镜像配置:https: 阅读全文
posted @ 2020-12-05 22:16 一支小白 阅读(1117) 评论(0) 推荐(0)
摘要:下载地址 https://archive.cloudera.com/hwx-sandbox/hdp/hdp-3.0.1/HDP_3.0.1_vmware_181205.ovavmware导入即可,网络使用桥接,不然可能无法打开。 文档 https://www.cloudera.com/tutoria 阅读全文
posted @ 2020-12-05 21:29 一支小白 阅读(498) 评论(0) 推荐(0)
摘要:1.打包python环境 建议使用conda conda克隆环境 conda create -n prod_env --clone base 进入conda的miniconda3/envs # 打包python环境 zip -r prod_env.zip prod_env 2.提交任务 sh脚本 e 阅读全文
posted @ 2020-09-19 21:36 一支小白 阅读(2572) 评论(0) 推荐(0)