摘要: 这是我启动spark后的输出信息, 我尝试更改spark默认版本 1. 对以下文件进行编辑 2. 在spark的bin目录下进行以下编辑 3. 重新启动pyspark 阅读全文
posted @ 2019-03-27 00:09 twoseee 阅读(5677) 评论(0) 推荐(0) 编辑
摘要: 随着时间的推移,大数据分析已达到一个新的程度,反过来又改变了其运作模式和期望。今天的大数据分析不仅处理大量数据,而且还具有快速周转时间的既定目标。虽然Hadoop是大数据分析背后无与伦比的技术,但它在快速处理方面存在一些不足。但是,随着Spark的出现,数据处理速度便有了更大的期望。 当我们谈到Sp 阅读全文
posted @ 2019-03-26 23:35 twoseee 阅读(943) 评论(2) 推荐(0) 编辑
摘要: UNIX / Linux系统提供了在每个单独进程之间进行通信的特殊机制。这些机制之一是信号,属于进程之间的不同通信方法(进程间通信,缩写为IPC)。 简而言之,信号是软件中断,它被发送到程序(或进程),将重要事件或请求通知程序,以便运行特殊的代码序列。接收到信号的程序要么停止或继续执行其指令,要么在 阅读全文
posted @ 2019-03-25 14:16 twoseee 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 不中断当前的执行,而是在一个单独的线程中处理signal,以便mainloop()有机会优雅地停止? 阅读全文
posted @ 2019-03-25 11:09 twoseee 阅读(1494) 评论(0) 推荐(0) 编辑
摘要: Resilient Distributed Datasets RDD本质上是一组数据的Spark表示,分布在多台机器上,使用API​​让您对其进行操作。RDD可以来自任何数据源,例如文本文件,通过JDBC的数据库等。 其定义为: 弹性分布式数据集(RDD)是Spark的基本数据结构。它是一个不可变的 阅读全文
posted @ 2019-03-24 23:55 twoseee 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 简介 动态语言的灵活性使其在做一些工具,脚本时非常方便,但是同时也给大型项目的开发带来了一些麻烦。 自python3.5开始,PEP484为python引入了类型注解(type hints),虽然在pep3107定义了函数注释(function annotation)的语法,但仍然故意留下了一些未定 阅读全文
posted @ 2019-03-21 15:56 twoseee 阅读(724) 评论(0) 推荐(0) 编辑
摘要: Python3.2中引入的concurrent非常的好用,只用几行代码就可以编写出线程池/进程池,并且计算型任务效率和mutiprocessing.pool提供的poll和ThreadPoll相比不分伯仲,而且在IO型任务由于引入了Future的概念效率要高数倍。 而threading的话还要自己维 阅读全文
posted @ 2019-03-17 14:40 twoseee 阅读(710) 评论(0) 推荐(0) 编辑
摘要: 什么是布隆过滤器 1970年,由布隆提出来的一个用于判断元素是否在集合中的高效的算法,集合中的元素可以增加,但是要删除一个元素比较困难,同时还有少量的误报率。 在数据量比较小的时候,我们可以使用 Hash 来判断元素是否命中,但是当元素增加起来后,Hash 算法需要的空间就会急速增长,查找时间也会增 阅读全文
posted @ 2019-01-07 14:00 twoseee 阅读(1790) 评论(0) 推荐(0) 编辑
摘要: 1反射机制是什么 反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法;对于任意一个对象,都能够调用它的任意一个方法和属性;这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制。 2反射机制能做什么 反射机制主要提供了以下功能: 3反射机制的相关API 通过一 阅读全文
posted @ 2019-01-02 02:24 twoseee 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 以下是我的路由表 可以看到没有公共的ipv6地址。 fe80::/64 是本地地址 ifconfig查看 执行安装 再次ifconfig查看 重启网络 发现可以使用ipv6功能 阅读全文
posted @ 2018-12-21 17:46 twoseee 阅读(2037) 评论(0) 推荐(0) 编辑