随笔档案「2019年3月」 - twoseee

摘要：这是我启动spark后的输出信息，我尝试更改spark默认版本 1. 对以下文件进行编辑 2. 在spark的bin目录下进行以下编辑 3. 重新启动pyspark 阅读全文

posted @ 2019-03-27 00:09 twoseee 阅读(5754) 评论(0) 推荐(0)

摘要：随着时间的推移，大数据分析已达到一个新的程度，反过来又改变了其运作模式和期望。今天的大数据分析不仅处理大量数据，而且还具有快速周转时间的既定目标。虽然Hadoop是大数据分析背后无与伦比的技术，但它在快速处理方面存在一些不足。但是，随着Spark的出现，数据处理速度便有了更大的期望。当我们谈到Sp 阅读全文

posted @ 2019-03-26 23:35 twoseee 阅读(1029) 评论(2) 推荐(0)

用Python处理Unix信号

摘要：UNIX / Linux系统提供了在每个单独进程之间进行通信的特殊机制。这些机制之一是信号，属于进程之间的不同通信方法（进程间通信，缩写为IPC）。简而言之，信号是软件中断，它被发送到程序(或进程)，将重要事件或请求通知程序，以便运行特殊的代码序列。接收到信号的程序要么停止或继续执行其指令，要么在阅读全文

posted @ 2019-03-25 14:16 twoseee 阅读(739) 评论(0) 推荐(0)

如何优雅地处理SIGTERM信号?

摘要：不中断当前的执行，而是在一个单独的线程中处理signal，以便mainloop()有机会优雅地停止? 阅读全文

posted @ 2019-03-25 11:09 twoseee 阅读(1556) 评论(0) 推荐(0)

Resilient Distributed Datasets (RDD)

摘要：Resilient Distributed Datasets RDD本质上是一组数据的Spark表示，分布在多台机器上，使用API让您对其进行操作。RDD可以来自任何数据源，例如文本文件，通过JDBC的数据库等。其定义为：弹性分布式数据集（RDD）是Spark的基本数据结构。它是一个不可变的阅读全文

posted @ 2019-03-24 23:55 twoseee 阅读(288) 评论(0) 推荐(0)

typing-python用于类型注解的库

摘要：简介动态语言的灵活性使其在做一些工具，脚本时非常方便，但是同时也给大型项目的开发带来了一些麻烦。自python3.5开始，PEP484为python引入了类型注解(type hints),虽然在pep3107定义了函数注释(function annotation)的语法,但仍然故意留下了一些未定阅读全文

posted @ 2019-03-21 15:56 twoseee 阅读(787) 评论(0) 推荐(0)

Python有了concurrent的话mutiprocessing和threading还有存在的意义吗？

摘要：Python3.2中引入的concurrent非常的好用，只用几行代码就可以编写出线程池/进程池，并且计算型任务效率和mutiprocessing.pool提供的poll和ThreadPoll相比不分伯仲，而且在IO型任务由于引入了Future的概念效率要高数倍。而threading的话还要自己维阅读全文

posted @ 2019-03-17 14:40 twoseee 阅读(748) 评论(0) 推荐(0)

twoseee

03 2019 档案

公告