随笔档案「2018年7月」 - 理想几岁

Linux 搭建Hadoop集群错误锦集

摘要：一、Hadoop集群配置好后，执行start-dfs.sh后报错，一堆permission denied 解决方案：对hadoop安装目录执行命令：sudo chmod a+w * 对文件敞开权限二、执行./start-dfs.sh 和 ./start-yarn.sh 后master主机上jps 阅读全文

posted @ 2018-07-31 20:59 理想几岁阅读(1675) 评论(0) 推荐(0)

机器学习--聚类系列--DBSCAN算法

摘要：DBSCAN算法基本概念:(Density-Based Spatial Clustering of Applications with Noise) 核心对象:若某个点的密度达到算法设定的阈值则其为核心点。(即 r 邻域内点的数量不小于 minPts) ε-邻域的距离阈值:设定的半径r 直接密度可阅读全文

posted @ 2018-07-21 01:25 理想几岁阅读(1310) 评论(0) 推荐(0)

机器学习--聚类系列--层次聚类

摘要：层次聚类层次聚类(Hierarchical Clustering)是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。作为一家公司的人力资源部经理阅读全文

posted @ 2018-07-21 00:52 理想几岁阅读(38226) 评论(6) 推荐(5)

机器学习--聚类系列--K-means算法

摘要：一、聚类聚类分析是非监督学习的很重要的领域。所谓非监督学习，就是数据是没有类别标记的，算法要从对原始数据的探索中提取出一定的规律。而聚类分析就是试图将数据集中的样本划分为若干个不相交的子集，每个子集称为一个“簇”。它的难点是不好调参和评估。下面是sklearn中对各种聚类算法的比较。二、K-Me 阅读全文

posted @ 2018-07-21 00:35 理想几岁阅读(1092) 评论(0) 推荐(0)

数据分析--降维--LDA和PCA

摘要：一、因子分析因子分析是将具有错综复杂关系的变量（或样本）综合为少数几个因子，以再现原始变量和因子之间的相互关系，探讨多个能够直接测量，并且具有一定相关性的实测指标是如何受少数几个内在的独立因子所支配，并且在条件许可时借此尝试对变量进行分类。因子分析的基本思想根据变量间相关性的大小把变量分组，使阅读全文

posted @ 2018-07-20 18:35 理想几岁阅读(3042) 评论(0) 推荐(0)

自然语言处理--Word2vec（一）

摘要：一、自然语言处理与深度学习自然语言处理应用深度学习模型为什么需要用深度学习来处理呢二、语言模型 1、语言模型实例: 机器翻译拼写纠错智能问答 1）机器翻译，比如要翻译高价，可能 P(high price) > P(large price)，然后得到的结果就是high price 2）拼写阅读全文

posted @ 2018-07-19 13:28 理想几岁阅读(579) 评论(0) 推荐(0)

自然语言处理--TF-IDF（关键词提取）

摘要：TF-IDF算法 TF-IDF（词频-逆文档频率）算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用，如从一篇阅读全文

posted @ 2018-07-18 18:33 理想几岁阅读(904) 评论(0) 推荐(0)

机器学习-贝叶斯算法

摘要：0. 前言这是一篇关于贝叶斯方法的科普文，我会尽量少用公式，多用平白的语言叙述，多举实际例子。更严格的公式和计算我会在相应的地方注明参考资料。贝叶斯方法被证明是非常 general 且强大的推理框架，文中你会看到很多有趣的应用。 1. 历史托马斯·贝叶斯（Thomas Bayes）同学的详细生平阅读全文

posted @ 2018-07-18 17:47 理想几岁阅读(6613) 评论(0) 推荐(1)

如何写一个拼写检查器-by Peter Norvig

摘要：本文原著：Peter Norvig 中文翻译：徐宥上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇. 比如说在搜索的时候键入 [speling], 在不到 0.1 秒的时间内, Google 会返回: 你要找的是不是 [spel 阅读全文

posted @ 2018-07-18 16:24 理想几岁阅读(1244) 评论(0) 推荐(0)

机器学习--boosting家族之XGBoost算法

摘要：一、概念 XGBoost全名叫（eXtreme Gradient Boosting）极端梯度提升，经常被用在一些比赛中，其效果显著。它是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包。XGBoost 所应用的算法就是 GBDT（gradient boo 阅读全文

posted @ 2018-07-17 17:51 理想几岁阅读(102570) 评论(8) 推荐(8)

机器学习--boosting家族之GBDT

摘要：本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT 阅读全文

posted @ 2018-07-15 18:29 理想几岁阅读(2402) 评论(0) 推荐(0)

机器学习--boosting家族之Adaboost算法

摘要：最近在系统研究集成学习，到Adaboost算法这块，一直不能理解，直到看到一篇博文，才有种豁然开朗的感觉，真的讲得特别好，原文地址是（http://blog.csdn.net/guyuealian/article/details/70995333），在此摘录，方便查找与复习。一、AdaBoost简阅读全文

posted @ 2018-07-15 16:31 理想几岁阅读(1702) 评论(0) 推荐(0)

机器学习中的范数规则化之L0、L1与L2范数

摘要：今天看到一篇讲机器学习范数规则化的文章，讲得特别好，记录学习一下。原博客地址（http://blog.csdn.net/zouxy09）。今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇阅读全文

posted @ 2018-07-14 18:59 理想几岁阅读(1544) 评论(1) 推荐(1)

数据预处理：独热编码（One-Hot Encoding）和 LabelEncoder标签编码

摘要：一、问题由来在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。离散特征的编码分为两种情况： 1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射阅读全文

posted @ 2018-07-13 16:20 理想几岁阅读(107835) 评论(3) 推荐(12)

机器学习--随机森林

摘要：一、随机森林的定义在集成学习中，我们知道bagging + 决策树就构成了随机森林。经典的机器学习模型是神经网络，神经网络预测精确，但是计算量很大。随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Lear 阅读全文

posted @ 2018-07-13 15:27 理想几岁阅读(3037) 评论(0) 推荐(0)

机器学习-决策树

摘要：一、决策树决策树是一种简单高效并且具有强解释性的模型，广泛应用于数据分析领域。其本质是一颗由多个判断节点组成的树，在使用模型进行预测时，根据输入参数依次在各个判断节点进行判断游走，最后到叶子节点即为预测结果。在数据挖掘中，决策树主要有两种类型: 分类树的输出是样本的类标。回归树的输出是一个阅读全文

posted @ 2018-07-13 14:35 理想几岁阅读(1514) 评论(0) 推荐(0)

机器学习--集成学习（Ensemble Learning）

摘要：一、集成学习法在机器学习的有监督学习算法中，我们的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个有偏好的模型（弱监督模型，在某些方面表现的比较好）。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某阅读全文

posted @ 2018-07-13 12:48 理想几岁阅读(103955) 评论(5) 推荐(7)

维基百科---似然函数

摘要：在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。概率用于在阅读全文

posted @ 2018-07-11 16:53 理想几岁阅读(7728) 评论(0) 推荐(0)

机器学习--线性回归与逻辑回归

摘要：1. 线性回归在统计学中，线性回归（Linear Regression）是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合（自变量都是一次方）。只有一个自变量的情况称为简单回归，大于一个自变量情况的叫做阅读全文

posted @ 2018-07-11 16:09 理想几岁阅读(1783) 评论(0) 推荐(0)

梯度下降法的三种形式-BGD、SGD、MBGD

摘要：在应用机器学习算法时，我们通常采用梯度下降法来对采用的算法进行训练。其实，常用的梯度下降法还具体包含有三种不同的形式，它们也各自有着不同的优缺点。下面我们以线性回归算法来对三种梯度下降法进行比较。一般线性回归函数的假设函数为：对应的损失函数为：下图为一个二维参数（θ0和θ1）组对应能量函数的阅读全文

posted @ 2018-07-11 12:56 理想几岁阅读(4291) 评论(0) 推荐(0)

机器学习-KNN算法

摘要：原理 KNN算法，又叫K近邻算法。就是在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类，其算法的描述为： 1）计算测试数据与各个训练数据之间的距离； 2）阅读全文

posted @ 2018-07-06 22:30 理想几岁阅读(479) 评论(0) 推荐(0)

理想几岁

07 2018 档案