05 2019 档案

摘要:1Hive简介 Hive对我来说就是一个基于HDFS的数据仓库,它提供了一个种类SQL语言(和SQL标准基本一样又有一些特殊的地方不一样),能让不精通Java语言而熟悉SQL语言的工程师,快速的对HDFS或其他存储文件系统如Amazon,S3,上的数据进行数据分析,是Hadoop生态系统中非常重要的 阅读全文
posted @ 2019-05-03 10:20 才千5贝 阅读(2347) 评论(0) 推荐(0)
摘要:1用python做数据分析,数据来源一般会有多种格式,而我喜欢以CSV的方式进行存储分析,如果数据本身就是CSV格式的那我可以直接用pandas库自带的方法进行读取即可,但是有时候各种来源的数据不方便用pandas进行直接分析处理,所以就有了一个通用的读写CSV文件的方法。 2.有时候文件是txt或 阅读全文
posted @ 2019-05-02 20:49 才千5贝 阅读(1780) 评论(0) 推荐(0)