摘要: 集合概述 1. 元组Tuple 元组:可以存放各种相同或不同类型的数据,对数据没有过多的约束 注 :元组最大只能有 22 个元素 1.1 元组的创建 1.2 元组的访问 访问元组中的数据,可以采用顺序号(_顺序号),也可以通过索引(productElement)访问。 1.3 元组的遍历 Tuple 阅读全文
posted @ 2019-11-15 23:50 qingfeng68 阅读(154) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/qq_20603001/article/details/62887099 阅读全文
posted @ 2019-11-15 20:22 qingfeng68 阅读(361) 评论(0) 推荐(0)
摘要: 首先,对于python,只有针对类来说的self才有意义,所以python中的self,说的即是python类中的self。 以下我将结合python类的相关概念叙述,必须明确的是,self只能用在python类的方法(即函数)中。 在我看来,python的类有三个相关概念:属性(即变量)、方法(即 阅读全文
posted @ 2019-11-15 20:21 qingfeng68 阅读(196) 评论(0) 推荐(0)
摘要: Python中强大的选项处理模块。 示例 将上面代码保存到文件option1.py(名字随便),添加执行权限并运行: 查看输出结果,稍稍思考就有所的了。 加载模块 要使用 "OptionParser" 模块,需要在Python程序中导入: 生成 "OptionParser" 实例 首先需要生成一个实 阅读全文
posted @ 2019-11-15 20:21 qingfeng68 阅读(1221) 评论(0) 推荐(0)
摘要: 基本操作 Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的 "DataFrame API" 。 本文中的代码基于Spark 1.6.2的文档实现 。 一、Data 阅读全文
posted @ 2019-11-15 20:21 qingfeng68 阅读(506) 评论(0) 推荐(0)
摘要: 1. 变量赋值 Python 中的变量赋值不需要类型声明。 每个变量在内存中创建,都包括变量的标识,名称和数据这些信息。 每个变量在使用前都必须赋值,变量 以后该变量才会 。 执行结果: 2. 多个变量赋值 Python允许你同时为多个变量赋值。例如: 以上实例,创建一个整型对象,值为1,三个变量被 阅读全文
posted @ 2019-11-15 20:20 qingfeng68 阅读(267) 评论(0) 推荐(0)
摘要: https://www.runoob.com/w3cnote/google python styleguide.html 分号 不要在行尾加分号, 也不要用分号将两条命令放在同一行。 行长度 每行不超过80个字符 以下情况除外: 1. 长的导入模块语句 2. 注释里的URL 不要使用反斜杠连接行。 阅读全文
posted @ 2019-11-15 20:20 qingfeng68 阅读(159) 评论(0) 推荐(0)
摘要: 估计很多人跟我一样初学python看代码的时候先找一下main()方法,从main往下看。但事实上python中是没有你理解中的“main()”方法的。言归正传 if __name__ == "__main__":可以看成是python程序的入口,就像java中的main()方法,但不完全正确。 事 阅读全文
posted @ 2019-11-15 20:20 qingfeng68 阅读(5807) 评论(0) 推荐(1)
摘要: 异常即是一个事件,该事件会在程序执行过程中发生,影响了程序的正常执行。 一般情况下,在Python无法正常处理程序时就会发生一个异常。 异常是Python ,表示一个错误。 当Python脚本发生异常时我们需要捕获处理它, 。 python提供了两个非常重要的功能来处理python程序在运行中出现的 阅读全文
posted @ 2019-11-15 20:20 qingfeng68 阅读(117) 评论(0) 推荐(0)
摘要: "https://www.runoob.com/python/python operators.html ysf5" Python语言支持以下类型的运算符: 算术运算符 比较(关系)运算符 赋值运算符 逻辑运算符 位运算符 运算符优先级 1. Python算术运算符 以下假设变量: a=10,b=2 阅读全文
posted @ 2019-11-15 20:19 qingfeng68 阅读(224) 评论(0) 推荐(0)
摘要: 1. 条件语句 Python程序语言指定 为`true 0` 或者 为`false`。 Python 编程中 if 语句用于控制程序的执行,基本形式为: 其中"判断条件"成立时(非零),则执行后面的语句,而执行内容可以多行,以缩进来区分表示同一范围。 else 为可选语句,当需要在条件不成立时执行内 阅读全文
posted @ 2019-11-15 20:19 qingfeng68 阅读(151) 评论(0) 推荐(0)
摘要: 1. 列表(list) 序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。 Python有6个序列的内置类型,但最常见的是列表和元组。 此外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法。 1.1 访 阅读全文
posted @ 2019-11-15 20:19 qingfeng68 阅读(197) 评论(0) 推荐(0)
摘要: Python中默认的编码格式是 ASCII 格式,在没修改编码格式时无法正确打印汉字,所以在读取中文时会报错。 解决方法为只要在文件开头加入 coding: UTF 8 或者 coding=utf 8 就行了 Pycharm 设置步骤: 1. 进入 file Settings,在输入框搜索 enco 阅读全文
posted @ 2019-11-15 20:19 qingfeng68 阅读(111) 评论(0) 推荐(0)
摘要: 1. 脚本式编程 通过脚本参数调用解释器开始执行脚本,直到脚本执行完毕。当脚本执行完成后,解释器不再有效。 让我们写一个简单的 Python 脚本程序。所有 Python 文件将以 .py 为扩展名。将以下的源代码拷贝至 test.py 文件中。 这里,假设你已经设置了 Python 解释器 PAT 阅读全文
posted @ 2019-11-15 20:19 qingfeng68 阅读(147) 评论(0) 推荐(0)
摘要: https://www.cnblogs.com/zhou2019/p/10582716.html 阅读全文
posted @ 2019-11-15 20:18 qingfeng68 阅读(71) 评论(0) 推荐(0)
摘要: 啊啊 阅读全文
posted @ 2019-11-15 20:18 qingfeng68 阅读(64) 评论(0) 推荐(0)
摘要: 1. 定义函数 定义一个函数的简单的规则: 函数代码块以 def 关键词开头,后接函数标识符名称和圆括号()。 任何传入参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。 函数的 第一行语句可以选择性地使用文档字符串—用于存放函数说明 。 函数内容以冒号起始,并且缩进。 return [表 阅读全文
posted @ 2019-11-15 20:18 qingfeng68 阅读(105) 评论(0) 推荐(0)
摘要: 1. import 语句 模块的引入 模块定义好后,我们可以使用 import 语句来引入模块,语法如下: 比如要引用模块 math,就可以在文件最开始的地方用 import math 来引入。在调用 math 模块中的函数时,必须这样引用: 当解释器遇到 import 语句,如果模块在当前的搜索路 阅读全文
posted @ 2019-11-15 20:18 qingfeng68 阅读(134) 评论(0) 推荐(0)
摘要: os.path 模块主要用于获取文件的属性。 以下是 os.path 模块的几种常用方法: |方法| 说明| | | | | |返回绝对路径 |os.path.basename(path) |返回文件名 |os.path.commonprefix(list) |返回list(多个路径)中,所有pat 阅读全文
posted @ 2019-11-15 20:17 qingfeng68 阅读(123) 评论(0) 推荐(0)
摘要: 以下介绍在python的re模块中怎样应用正则表达式 1. 使用re.compile re模块中包含一个重要函数是compile(pattern [, flags]) ,该函数根据包含的正则表达式的字符串创建模式对象。可以实现更有效率的匹配。在直接使用字符串表示的正则表达式进行search,matc 阅读全文
posted @ 2019-11-15 20:17 qingfeng68 阅读(2883) 评论(0) 推荐(0)
摘要: yaml 一个数据序列化的标准,适用于所有开发语言,最大的特点是可读性好。 一个主要应用方向就是编写配置文件,有非常多的系统和框架采用yaml进行配置。 yaml基本规则 1. 区分大小写 2. 使用缩进表示层级关系; 3. 禁止使用tab缩进,只能使用空格键; 4. 缩进长度没有限制,只要元素对奇 阅读全文
posted @ 2019-11-15 20:16 qingfeng68 阅读(435) 评论(1) 推荐(0)
摘要: (1) Scala中创建多行字符串使用Scala的Multiline String。 在Scala中,利用三个双引号包围多行字符串就可以实现。 代码实例如: 运行结果为: (2) 上述方法存在一个缺陷问题,输入的内容,带有空格、\t之类,导致每一行的开始位置不能整洁对齐。 而在实际应用场景下,有时候 阅读全文
posted @ 2019-11-15 20:15 qingfeng68 阅读(1696) 评论(0) 推荐(0)
摘要: 作用 git无法追踪一个 空文件夹 ,当用户需要 追踪(track) 一个空文件夹的时候,按照惯例,大家会把一个称为 的文件放在这些文件夹里。 举例 就个人而言,一般需要.gitkeep地方,是希望完成以下功能: 使git忽略一个文件夹下的所有文件,并保留该 文件夹 当 采用上面的写法时,git会忽 阅读全文
posted @ 2019-11-15 20:15 qingfeng68 阅读(3031) 评论(0) 推荐(1)
摘要: 背景: 根据《Hive权威指南》上讲,在hive 0.8.0以后可以使用 define key=value命令定义用户自定义的变量以便在Hive脚本中引用。当用户使用这个功能时,Hive会将这个键值对放在hivevar命名空间下。并且,hivevar这个命名空间在使用过程中是可选的,也就是说可写可不 阅读全文
posted @ 2019-11-15 20:14 qingfeng68 阅读(414) 评论(0) 推荐(0)
摘要: 语法:coalesce(T v1,T v2) 返回参数中的 ;如果所有值都为NULL,则最终返回NULL 阅读全文
posted @ 2019-11-15 20:14 qingfeng68 阅读(251) 评论(0) 推荐(0)
摘要: 和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例: (1) SELECT count(DISTINCT uid) FROM log (2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip (3) SELECT ip, coun 阅读全文
posted @ 2019-11-15 20:13 qingfeng68 阅读(1915) 评论(0) 推荐(0)
摘要: %代表任意多个字符 _代表一个字符 如果我就真的要查\%或者\_,怎么办呢?使用escape,转义字符后面的%或\_就不作为通配符了,注意前面没有转义字符的%和_仍然起通配符作用 通常使用'\'来做转义字符,但是也可以使用其他的符号. 阅读全文
posted @ 2019-11-15 20:13 qingfeng68 阅读(2352) 评论(0) 推荐(0)
摘要: 1.列出根目录下所有的目录或文件 2.列出/user目录下的所有目录和文件 3.列出/user目录及其子目录下的所有文件(谨慎使用) 4.创建/soft目录 5.创建多级目录 6.将本地的wordcount.jar文件上传到/wordcount目录下 7.下载words.txt文件到本地 8.将/s 阅读全文
posted @ 2019-11-15 20:11 qingfeng68 阅读(210) 评论(0) 推荐(0)
摘要: ```scala sparkConf.set("spark.streaming.stopGracefullyOnShutdown", "true") // 启动新的线程,希望在特殊的场合关闭SparkStreaming new Thread(new Runnable { override def run(): Unit = { while ( true ) { try { Thread.sleep 阅读全文
posted @ 2019-11-15 20:07 qingfeng68 阅读(174) 评论(0) 推荐(0)
摘要: 第一章:Spark概述 1.1 什么是Spark 是一种基于内存的快速、通用、可扩展的大数据分析引擎。 1.2 Spark内置模块 Spark Core: 实现了Spark的基本功能,包含 任务调度、 内存管理、 错误恢复、 存储系统交互等模块。 Spark Core中还包含了对弹性分布式数据集(R 阅读全文
posted @ 2019-11-15 20:06 qingfeng68 阅读(239) 评论(0) 推荐(0)
摘要: 第1章 RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式 数据集 ,是Spark中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD的属性 1. 一组分区(Parti 阅读全文
posted @ 2019-11-15 20:06 qingfeng68 阅读(234) 评论(0) 推荐(0)
摘要: ``` log4j.rootLogger=INFO,CONSOLE log4j.addivity.org.apache=true # console log4j.appender.CONSOLE=org.apache.log4j.ConsoleAppender log4j.appender.CONSOLE.Threshold=INFO log4j.appender.CONSOLE.Target=S 阅读全文
posted @ 2019-11-15 19:57 qingfeng68 阅读(139) 评论(0) 推荐(0)
该文被密码保护。 阅读全文
posted @ 2019-11-15 19:55 qingfeng68 阅读(11) 评论(0) 推荐(0)