随笔分类 - Hadoop
摘要:在kaggle下载了一个train.csv,用于测试公司平台决策树算法,该数据有一个label标签和784个特征列,名字如pixel0,pixel1…….pixel783。具体操作如下(pyspark下):from pyspark.sql import Hi...
阅读全文
摘要:1. 将csv或Excel文件转换为文本,以逗号或者制表符都可以: xigua.txtid,color,root,stroke,venation,umbilical,touch,status1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是2,乌黑,蜷缩,沉闷,清...
阅读全文
摘要:# 创建目录hadoop fs -mkdir /storage# 递归创建目录hadoop fs -mkdir /storage/johnny/data# 将服务器上的文件上传到hdfshadoop fs -put file_path hdfs_path ...
阅读全文

浙公网安备 33010602011771号