大数据 - 随笔分类 - 一支小白

【HDP】jupyter配置pyspark

摘要：source /usr/hdp/3.3.1.0-002/spark2/bin/load-spark-env.sh nohup jupyter notebook --no-browser --port 18888 --ip 0.0.0.0 --allow-root --NotebookApp.toke 阅读全文

posted @ 2023-08-24 13:06 一支小白阅读(48) 评论(0) 推荐(0)

【ambari 2.7】一键docker部署脚本

摘要：# 仓库地址 https://github.com/code-ssd/ambari-in-docker 如果安装全部组件，建议32G内存。安装常用组件大约会占用15G内存。下面hadoop三节点，然后关闭了hbase约15G内存 ![](https://img2023.cnblogs.com/blo 阅读全文

posted @ 2023-05-19 21:03 一支小白阅读(905) 评论(1) 推荐(0)

【学习】单机flink1.12.2集成hadoop3.1.3

摘要：单机环境！！！单ip 如果多ip可能有些默认为主机名的配置要注意，或者直接偷懒 /etc/hosts配置当前主机名 ip 而不是hadoop ip 备注主机名是记得在/etc/hosts里添加 hadoop ip 环境变量 current_dir=/opt/bigdata #HADOOP_H 阅读全文

posted @ 2022-07-31 18:19 一支小白阅读(375) 评论(0) 推荐(0)

【cdh6.3.2】阿里云盘

摘要：「CDH」https://www.aliyundrive.com/s/xLpG9dBv1Qc 点击链接保存，或者复制本段内容，打开「阿里云盘」APP ，无需下载极速在线查看，视频原画倍速播放。迅雷下载https://archive.cloudera.com/cdh6/6.3.2/parcels/C 阅读全文

posted @ 2022-01-11 23:01 一支小白阅读(2024) 评论(0) 推荐(0)

【python】selenium获取http请求头信息

摘要：# 以获取API商城 - IP查询服务的timestamp签名为例# 是seleniumwire 不是 selenium import time from seleniumwire import webdriver driver = webdriver.Chrome() driver.get('ht 阅读全文

posted @ 2021-04-08 22:18 一支小白阅读(8050) 评论(0) 推荐(0)

从语料中自动挖掘短语

摘要：从语料中自动挖掘短语 https://github.com/shangjingbo1226/AutoPhrase 预测搜索短语可采用FST结构， https://blog.csdn.net/vivian_ll/article/details/95049652 https://www.youtube. 阅读全文

posted @ 2020-12-06 11:40 一支小白阅读(293) 评论(0) 推荐(0)

pyspark数据处理分析

摘要：相比于pandas，pyspark的dataframe的接口和sql类似，比较容易上手。搭建python3环境建议使用miniconda3 下载地址：https://mirrors.bfsu.edu.cn/anaconda/miniconda/ 选择py37版本 conda镜像配置：https: 阅读全文

posted @ 2020-12-05 22:16 一支小白阅读(1117) 评论(0) 推荐(0)

Hdp sandbox

摘要：下载地址 https://archive.cloudera.com/hwx-sandbox/hdp/hdp-3.0.1/HDP_3.0.1_vmware_181205.ovavmware导入即可，网络使用桥接，不然可能无法打开。文档 https://www.cloudera.com/tutoria 阅读全文

posted @ 2020-12-05 21:29 一支小白阅读(498) 评论(0) 推荐(0)

pyspark提交集群任务

摘要：1.打包python环境建议使用conda conda克隆环境 conda create -n prod_env --clone base 进入conda的miniconda3/envs # 打包python环境 zip -r prod_env.zip prod_env 2.提交任务 sh脚本 e 阅读全文

posted @ 2020-09-19 21:36 一支小白阅读(2572) 评论(0) 推荐(0)

code -ss

随笔分类 - 大数据

公告