随笔分类 -  Hadoop

摘要:在kaggle下载了一个train.csv,用于测试公司平台决策树算法,该数据有一个label标签和784个特征列,名字如pixel0,pixel1…….pixel783。具体操作如下(pyspark下):from pyspark.sql import Hi... 阅读全文
posted @ 2018-03-22 10:21 小茶馆 阅读(944) 评论(0) 推荐(0)
摘要:1. 将csv或Excel文件转换为文本,以逗号或者制表符都可以: xigua.txtid,color,root,stroke,venation,umbilical,touch,status1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是2,乌黑,蜷缩,沉闷,清... 阅读全文
posted @ 2018-03-21 14:47 小茶馆 阅读(2709) 评论(0) 推荐(0)
摘要:# 创建目录hadoop fs -mkdir /storage# 递归创建目录hadoop fs -mkdir /storage/johnny/data# 将服务器上的文件上传到hdfshadoop fs -put file_path hdfs_path ... 阅读全文
posted @ 2018-03-20 11:18 小茶馆 阅读(655) 评论(0) 推荐(0)