2020 年 10月 14 日随笔档案 - 西西嘛呦

2020年10月14日

摘要： pyspark读取数据方法一：从hdfs读取 # -*- coding: utf-8 -* from pyspark.sql import SparkSession, HiveContext,DataFrameWriter import argparse import time import nu 阅读全文

posted @ 2020-10-14 21:32 西西嘛呦阅读(4328) 评论(0) 推荐(0) 编辑

pyspark读取pickle文件内容并存储到hive

摘要：在平常工作中，难免要和大数据打交道，而有时需要读取本地文件然后存储到Hive中，本文接下来将具体讲解。过程：使用pickle模块读取.plk文件；将读取到的内容转为RDD；将RDD转为DataFrame之后存储到Hive仓库中； 1、使用pickle保存和读取pickle文件 import 阅读全文

posted @ 2020-10-14 21:30 西西嘛呦阅读(1294) 评论(0) 推荐(0) 编辑

西西嘛呦

从自己能做到的开始，一件件来，缓慢而坚定地前进，尽力而为

公告