摘要: 简介 Stringr中包含3个主要的函数族 字符操作 空格处理 模式匹配 常用函数 在平常的数据分析工作中,经常要用到如下的函数 | 函数 | 操作 | | |: :| | str_length() | 获取字符串长度 | | str_sub() | 截取字符串 | | str_dup() | 复制 阅读全文
posted @ 2017-03-15 20:39 段星星 阅读(1604) 评论(0) 推荐(0) 编辑
摘要: 简介WKT(Well-known text)是开放地理空间联盟OGC(Open GIS Consortium )制定的一种文本标记语言,用于表示矢量几何对象、空间参照系统及空间参照系统之间的转换。WKB(well-knownbinary) 是WKT的二进制表示形式,解决了WKT表达方式冗余的问题,便... 阅读全文
posted @ 2016-01-20 10:34 段星星 阅读(7166) 评论(0) 推荐(5) 编辑
摘要: 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。本文主要关注于常用的特征选择方法 过采样(Over sampling) 针对不平衡数据, 最简单的一种方法就是生成少数类的样本, 这其中最基本的一种方法就是: 从 阅读全文
posted @ 2019-05-05 18:05 段星星 阅读(681) 评论(0) 推荐(0) 编辑
摘要: 背景 mac下卸载了xcode,使用git等命令时就提示错误。invalid active path(Applications/Xcode.app/Contents/Developer),这种情况可以通过xcode select switch指定一个xcode安装路径,如果不想安装xcode,那么可 阅读全文
posted @ 2018-04-12 11:28 段星星 阅读(9412) 评论(2) 推荐(2) 编辑
摘要: 1. 全局搜索:shift+command+f 2. 搜索类:command+o 3. 光标向前向后移动:command+option+(左/右) 4. 删除一行: command+delete 阅读全文
posted @ 2017-09-15 10:50 段星星 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 背景 本文介绍了python中一种最简单的代码结构的打包方式 包名称 我们先给我们的包取个名字,python包起名需要符合下面的规范 全部小写 在pypi上是唯一的 下划线分隔或没有单词分隔符(不要使用连字符) 作为一个简单的例子,我们把我们的包取名为 mytest 包结构 __init__.py 阅读全文
posted @ 2017-07-18 17:56 段星星 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 背景 聚类属于无监督学习,我们前面所讲的逻辑回归,决策树都是有类别标签y的,也就是说样本中给出了样本的类别y。而聚类的样本却没有给样本的类别y,只有样本的特征x。聚类的目的是找到每个样本x潜在的类别y,并将相同类别y的样本x放在一起。 kmeans kmeans中聚类算法中使用的最广泛的算法之一。我 阅读全文
posted @ 2017-05-31 16:46 段星星 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 背景 决策树是数据挖掘中一种最基本的分类与回归方法,与其他算法相比,决策树的原理浅显易懂,计算复杂度较小,而且输出结果易于理解,因此在实际工作中有着广泛的应用 基本算法 决策树分类算法的流程如下: 1. 初始化根结点,此时所有的观测样本均属于根结点 2. 根据下文中介绍的划分选择,选择当前最优的划分 阅读全文
posted @ 2017-05-31 16:43 段星星 阅读(2292) 评论(0) 推荐(0) 编辑
摘要: 简介 在上一篇 "机器学习之线性回归" 中我们聊到了怎么使用线性模型预测房价问题。也就是回归问题。这次我们来聊聊分类问题。 例子 我们首先分析一下用线性回归做分类为什么不合适,如下图的例子 这是一个乳腺癌相关的例子,横轴表示肿瘤的大小,纵轴上的1和0标明是或者不是恶性肿瘤。当$h_\theta$ 大 阅读全文
posted @ 2017-05-24 17:03 段星星 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 背景 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Mapreduce1 vs YARN Mapreduce1 我们首先来看一下整体架构 JobTracker 是 Map reduce 阅读全文
posted @ 2017-05-22 17:50 段星星 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 背景 在刚使用hive的过程中,碰到过很多问题,任务经常需要运行7,8个小时甚至更久,在此记录一下这个过程中,我的一些收获 join长尾 背景 SQL在Join执行阶段会将Join Key相同的数据分发到同一个执行Instance上处理。如果某个Key上的数据量比较多,会导致该Instance执行时 阅读全文
posted @ 2017-05-18 17:02 段星星 阅读(15312) 评论(0) 推荐(0) 编辑
摘要: 背景 本文是我在学习 Andrew Ng 的机器学习课程的总结 简介 作为本系列的第一讲,线性模型形式简单,易于建模,但是蕴含着机器学习中一些重要的基本思想。许多功能更为强大的非线性模型可在线性模型的基础上引入层级结构或高维映射而得。此外,线性模型也有比较好的可解释性 例子 让我们从一个经典的例子开 阅读全文
posted @ 2017-05-10 17:04 段星星 阅读(1063) 评论(0) 推荐(0) 编辑