2020年1月11日

摘要:结合 "假设检验" 的理论知识,本文使用Python对实际数据进行假设检验。 导入测试数据 从线上下载测试数据文件,数据链接:https://pan.baidu.com/s/1t4SKF6U2yyjT365FaE692A 数据字段说明: gender:性别,1为男性,2为女性 Temperature 阅读全文
posted @ 2020-01-11 16:41 camash 阅读 (130) 评论 (0) 编辑

2019年12月15日

摘要:假如要对一份统计数据进行分析,一般其来源来自于社会调研/普查,所以数据不是总体而是一定程度的抽样。对于抽样数据的分析,就可以结合上篇 "统计量及其抽样分布" 的内容,判断数据符合哪种分布。使用已知分布特性,可以完成对总体的统计分析。 本文使用python函数判断数据集是否符合特定抽样分布。 数据来源 阅读全文
posted @ 2019-12-15 21:33 camash 阅读 (84) 评论 (0) 编辑

2019年12月1日

摘要:接上篇 "概率分布" ,这篇文章讲概率分布在python的实现。 文中的公式使用LaTex语法,即在\begin{equation}至\end{equation}的内容可以在 "https://www.codecogs.com/latex/eqneditor.php?lang=zh cn" 页面转换 阅读全文
posted @ 2019-12-01 21:41 camash 阅读 (321) 评论 (0) 编辑

2019年11月17日

摘要:目前,做数据分析工作,基本人手Numpy,pandas,scikit learn。而这些计算程序包都是基于python平台的,所以搞数据的都得先装个python环境。。。(当然,你用R或Julia请忽略本文) 在macOS上,默认安装有python 2.7,鉴于python2即将停止更新,如果没有大 阅读全文
posted @ 2019-11-17 18:15 camash 阅读 (142) 评论 (0) 编辑

2019年8月27日

摘要:k means算法在人群聚类场景中,是一个非常实用的工具。(该算法的原理可以参考 "K Means算法的Python实现" ) 常见调用方式 该算法常规的调用方式如下: 异常现象 常规情况下,以上处理后,会根据dataframe上的索引列顺序的 (0~8的数值)。 但是,我们在执行代码过程中,出现了 阅读全文
posted @ 2019-08-27 22:06 camash 阅读 (214) 评论 (0) 编辑

2019年8月24日

摘要:背景:将测试环境的中kettle转换传输到生产环境上出现hadoop插件无法获取的错误 原因 : 迁到生产后,因为服务器带了主机名,所以在插件配置中使用主机名,而非ip地址。 处理方式 : 将里面的主机名改成ip地址即可。若遇到hadoop插件未发现的问题,可以考虑使用此法。 参考链接 : "1" 阅读全文
posted @ 2019-08-24 22:40 camash 阅读 (107) 评论 (0) 编辑

2019年5月19日

摘要:最近在重新学习统计学的一些基础知识,整理笔记的时候需要输入一些数学公式。从学校毕业之后,就没有在文档中插入过公式了。按照以前的经验,我把输入公式的方式分成两类。 所见即所得的方式,常见的就是微软word中的公式编辑器。 所想即所得的方式,按照LaTeX语法描述公式,使用工具将语句解析公式。 第一种方 阅读全文
posted @ 2019-05-19 12:10 camash 阅读 (519) 评论 (0) 编辑

2019年4月24日

摘要:问题现象 写了一个简单的shell脚本调用hive执行组装的sql,在执行时总是报 错误, 单独在hive提示符下却能正常执行。 执行时打印的错误日志: 解决方案 修改 为`hive e "${sql}"` 原因分析 若没有使用双引号进行包括,则"hive e"会认为后面的sql内容解析为多个参数造 阅读全文
posted @ 2019-04-24 11:58 camash 阅读 (511) 评论 (0) 编辑

2019年2月19日

摘要:现象 通过load data local导入本地文件时报无法导入的错误 相关操作 第一次导入时时成功的,后来发现源文件行数有问题,重新复制了一个文本文件到本地导入目录,后续再导入时就出现了上述问题。 解决办法 查询hive日志获得更详细的信息,日志的常见位置为/tmp/${user}/hive.lo 阅读全文
posted @ 2019-02-19 11:02 camash 阅读 (3438) 评论 (0) 编辑

2019年1月28日

摘要:算法简介 K Means是一种常用的聚类算法。聚类在机器学习分类中属于无监督学习,在数据集没有标注的情况下,便于对数据进行分群。而K Means中的K即指将数据集分成K个子集合。 K Means演示 从以下的动画、视频和计算过程可以较为直观了解算法的计算过程。 动画展示 视频展示 "https:// 阅读全文
posted @ 2019-01-28 16:36 camash 阅读 (2230) 评论 (0) 编辑

导航

统计