Fork me on GitHub
摘要: pyspark读取数据 方法一:从hdfs读取 # -*- coding: utf-8 -* from pyspark.sql import SparkSession, HiveContext,DataFrameWriter import argparse import time import nu 阅读全文
posted @ 2020-10-14 21:32 西西嘛呦 阅读(4328) 评论(0) 推荐(0) 编辑
摘要: 在平常工作中,难免要和大数据打交道,而有时需要读取本地文件然后存储到Hive中,本文接下来将具体讲解。 过程: 使用pickle模块读取.plk文件; 将读取到的内容转为RDD; 将RDD转为DataFrame之后存储到Hive仓库中; 1、使用pickle保存和读取pickle文件 import 阅读全文
posted @ 2020-10-14 21:30 西西嘛呦 阅读(1293) 评论(0) 推荐(0) 编辑