摘要:为什么中国开发不出流行的操作系统和编程语言 Stitch/2020 2 21 引子 知乎有两个帖子很有意思, "中国能不能写出操作系统?" "中国为什么没有自己的编程语言" 看了很多回到,有的答案写的很认真,按照编程语言出现的时间顺序等梳理;有的也非常认真,但是逻辑是错的;还有一种是搞笑的。 为什么 阅读全文
posted @ 2020-05-14 16:34 MyStitch 阅读(4320) 评论(80) 推荐(7) 编辑
摘要:(谢谢陈皓允许我引用他的话)不知不觉,我已经在博客园写了一段时间的博客。最初的是得到朋友的鼓励,想写一个简单快速的Python教程。后来Python教程在豆瓣的Python小组得到许多人的支持,并且在博客园也渐渐有了更多的评论和关注,这一些都大大出乎我的意料。所以进一步写Python标准库,又由于标注库的需要写了Linux的基本概念…… 博客逐渐成为自己生活中重要的一部分。空闲的时间会琢磨如何去写下一篇,写好了又非常期待园友的关注和交流。我迷上了博客这种记录、表达和分享的方式。CoolShell的博主陈皓说,博客是一种消化吸收知识再以自己的语言重新呈现的方式,有助于学习的过程 (私人交流)。我 阅读全文
posted @ 2012-11-24 21:34 MyStitch 阅读(334) 评论(0) 推荐(0) 编辑
正文内容加载中...
posted @ 2020-07-29 16:09 MyStitch 阅读(102) 评论(0) 推荐(0) 编辑
摘要:MySQL 对window函数执行sum函数疑似Bug 使用MySql的窗口函数统计数据时,发现一个小的问题,与大家一起探讨下。 环境配置: mysql-installer-community-8.0.20.0 问题点:在sum对window函数执行时,如果有重复数据,会直接把相同的数据相加,并不是 阅读全文
posted @ 2020-07-08 16:39 MyStitch 阅读(175) 评论(0) 推荐(0) 编辑
摘要:Spark常用任务命令参数和说明 spark-submit \ --name task2018072711591669 \ --master yarn --deploy-mode client \ --jars sparklistener-0.0.3-SNAPSHOT.jar \ --conf sp 阅读全文
posted @ 2020-07-06 17:26 MyStitch 阅读(195) 评论(0) 推荐(0) 编辑
摘要:Spark TempView和GlobalTempView的区别 TempView和GlobalTempView在spark的Dataframe中经常使用,两者的区别和应用场景有什么不同。 我们以下面的例子比较下两者的不同。 from pyspark.sql import SparkSession 阅读全文
posted @ 2020-07-06 16:50 MyStitch 阅读(292) 评论(0) 推荐(1) 编辑
摘要:Spark 分组取Top N运算 大数据处理中,对数据分组后,取TopN是非常常见的运算。 下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 阅读全文
posted @ 2020-07-06 15:35 MyStitch 阅读(366) 评论(0) 推荐(0) 编辑
摘要:1. 背景描述和需求 数据分析程序部署在Docker中,有一些分析计算需要使用Spark计算,需要把任务提交到Spark集群计算。 接收程序部署在Docker中,主机不在Hadoop集群上。与Spark集群网络互通。 需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker 阅读全文
posted @ 2020-07-03 18:08 MyStitch 阅读(398) 评论(0) 推荐(0) 编辑
摘要:Spark 版本配套表 名称 版本 说明 Spark spark-2.3.0-bin-hadoop2.7 Spark mongo-java-driver-3.5.0.jar 3.5 Mongo驱动 mongo-spark-connector_2.11-2.3.1.jar 2.3 Mongo conn 阅读全文
posted @ 2020-07-03 17:46 MyStitch 阅读(224) 评论(0) 推荐(0) 编辑
摘要:HDFS 文件操作命令 注,其实常用命令不用网上搜,和linux下的命令很类似,触类旁通,直接在linux 上 hadoop fs 看一下就行了,不需要刻意去记 我把 linux 上的 help 列举下,方便直接看吧,hdfs dfs 与 hadoop fs 效果一样 常用的就是 hdfs dfs 阅读全文
posted @ 2020-07-03 17:20 MyStitch 阅读(116) 评论(0) 推荐(0) 编辑
摘要:pandas、spark计算相关性系数速度对比 相关性计算有三种算法:pearson、spearman,kenall。 在pandas库中,对一个Dataframe,可以直接计算这三个算法的相关系数correlation,方法为:data.corr() 底层是依赖scipy库的算法。 为了提升计算速 阅读全文
posted @ 2020-07-02 15:55 MyStitch 阅读(328) 评论(0) 推荐(0) 编辑
摘要:机器学习决策树ID3算法,python实现代码 看到techflow介绍ID3算法,中间有代码示例。代码尝试执行力下,发现有错误。 https://www.cnblogs.com/techflow/p/12935130.html 经过整理,错误排查完毕。分享出来 {'courseA': {0: {' 阅读全文
posted @ 2020-05-22 15:18 MyStitch 阅读(176) 评论(1) 推荐(0) 编辑