随笔分类 -  Spark

摘要:先在我的集群上安装python3: [root@hadoop02 module]# yum install python3 再安装jupyter: pip3 install jupyter -i http://pypi.douban.com/simple --trusted-host pypi.do 阅读全文
posted @ 2021-01-10 02:11 foolangirl 阅读(3272) 评论(1) 推荐(0)
摘要:参考:spark连接外部Hive应用 如果想连接外部已经部署好的Hive,需要通过以下几个步骤。 1) 将Hive中的hive-site.xml拷贝或者软连接到Spark安装目录下的conf目录下。 2) 打开spark shell,注意带上访问Hive元数据库的JDBC客户端(找到连接hive元m 阅读全文
posted @ 2021-01-09 22:42 foolangirl 阅读(5264) 评论(0) 推荐(0)
摘要:Schema是什么 DataFrame中的数据结构信息,即为schema。DataFrame中提供了详细的数据结构信息,从而使得SparkSQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。 自动推断生成schema 使用spark的示例文件people.json, 查看数据: [r 阅读全文
posted @ 2021-01-03 16:43 foolangirl 阅读(2858) 评论(0) 推荐(0)
摘要:参考帖子操作解决: 安装jupyter参考: https://blog.csdn.net/lanyuelvyun/article/details/93499423 运行pyspark参考: https://www.cnblogs.com/chenxiangzhen/p/10706258.html j 阅读全文
posted @ 2020-12-11 21:50 foolangirl 阅读(302) 评论(0) 推荐(0)
摘要:解决CentOS7-python-pip安装失败 Pip介绍 pip 是一个安装和管理 Python 包的工具,python安装包的工具有easy_install, setuptools, pip,distribute。使用这些工具都能下载并安装django。,而pip是easy_install的替 阅读全文
posted @ 2020-12-10 20:08 foolangirl 阅读(228) 评论(0) 推荐(0)