摘要: 目的:把文本用数据的形式表达出来 方法:传统基于规则,现代基于统计 一、词编码方式1——离散表示 1、One hot编码 和句子中顺序无关,耗空间耗时 2、词袋模型 每个数表示该词出现的次数(One hot的加和) 3、TF_IDF 每个数代表该词在整个文档中的占比 4、N gram 相邻N个词作为 阅读全文
posted @ 2017-07-26 22:30 谦芊珺 阅读(1644) 评论(0) 推荐(0) 编辑
摘要: 1、tips 1、行业基准:用词袋模型表示句子,用SVM或LR做回归,用自己的模型和它做对比 2、分词:启发式或机器学习(HMM,CRF) 3、深度学习是端到端的 2、Auto Encoder 可将语料编码化,降维降噪 3、CNN 机器自动学习卷积滤镜 用word2vec将一句话处理成一个矩阵,用C 阅读全文
posted @ 2017-07-26 22:29 谦芊珺 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 为了解决“一词多义”和“多词一意”的问题,引入“主题” LDA本质是一个三层贝叶斯网络 1、共轭分布 1、Beta分布是二项分布的共轭先验分布 2、Dirichlet分布是多项分布的共轭先验分布 Dirichlet分布的参数$[\alpha_{1},\alpha_{2},....,\alpha_{n 阅读全文
posted @ 2017-07-26 22:28 谦芊珺 阅读(742) 评论(0) 推荐(0) 编辑
摘要: 1、统计机器翻译三要素 1、翻译模型 2、语言模型 3、排序模型 2、翻译流程 1、双语数据预处理 2、词对齐 3、构造短语翻译表 4、对短语翻译表进行概率估计 5、解码,beam search 6、评估 阅读全文
posted @ 2017-07-26 22:28 谦芊珺 阅读(752) 评论(0) 推荐(0) 编辑
摘要: 1、词袋模型 认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。 2、N gram模型 引入了词与词之间的顺序。 这个N是一个超参数。 1、一般能用2 gram尽量用2 gram。 2、平时3 gram用的多。 3、n =4的情况很少,在有特别多语料时可以尝试到5 gram 阅读全文
posted @ 2017-07-26 22:27 谦芊珺 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 1、字符串常用命令 2、正则表达式 3、Python的re模块 4、jieba分词工具 阅读全文
posted @ 2017-07-26 22:26 谦芊珺 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 1、隐马尔可夫HMM模型 一个隐马尔可夫模型可以表示为$$\lambda=\{A,B,\pi\}$$具体就不说了,比较基本。 2、HMM模型的三个基本问题 1、概率计算问题:给定$\lambda$和观测序列$\{x_{i}\}$,求$P(x_{i}| \lambda)$。主要方法是前向计算法或后向计 阅读全文
posted @ 2017-07-26 22:25 谦芊珺 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 一、贝叶斯网络 本文介绍贝叶斯网络。贝叶斯网络与前面的大多数算法有一些区别,它归属与贝叶斯学派,属于判别式模型。前面介绍大多数算法归属于频率学派,属于生成式模型。 贝叶斯网络可以看成是一个DAG(有向无环图)模型 贝叶斯网络的三个知识点 1、网络如图所示:$$A\leftarrow C\righta 阅读全文
posted @ 2017-07-26 22:24 谦芊珺 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 本文主要简述聚类算法族。聚类算法与前面文章的算法不同,它们属于非监督学习。 1、K means聚类 记k个簇中心,为$\mu_{1}$,$\mu_{2}$,...,$\mu_{k}$,每个簇的样本数为$N_{i}$ 假设每个簇中的数据都满足分布$N(\mu_{i},\sigma)$,即方差相同,均值 阅读全文
posted @ 2017-07-26 22:23 谦芊珺 阅读(1418) 评论(0) 推荐(0) 编辑
摘要: 一、GMM算法 EM算法实在是难以介绍清楚,因此我们用EM算法的一个特例GMM算法作为引入。 1、GMM算法问题描述 GMM模型称为混合高斯分布,顾名思义,它是由几组分别符合不同参数的高斯分布的数据混合而成的。 假设有n个样本点$x_{1},x_{2},...,x_{n}$,它们来自K个不同的高斯分 阅读全文
posted @ 2017-07-26 22:23 谦芊珺 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 1、集成 集成指用多个基学习器共同构成一个更加强大的学习器。 集成包含三种方法:Boosting,Bagging,Stacking 1、Boosting:包括GBDT和Adaboost,各学习器间存在强依赖关系,只能串行实现 2、Bagging的代表算法是随机森林,各学习器间不存在强依赖关系,可以并 阅读全文
posted @ 2017-07-26 22:22 谦芊珺 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 一、信息熵 首先给出信息熵的定义如下$$H\left( x\right) = \sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) $$ 1、无约束条件时,均匀分布熵最大 2、若给定分布的期望和方差,则正态分布的熵最大 二、决策树是什么 决策 阅读全文
posted @ 2017-07-26 22:20 谦芊珺 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 1、问题介绍 本文只涉及二分类支持向量机。 支持向量机问题可以分为三种情况来讨论: 1、硬间隔支持向量机:用于可以被一个超平面严格分开的问题中,又称为线性可分支持向量机 2、软间隔支持向量机:用于可以被一个超平面非严格分开的问题中,又称线性支持向量机 3、核支持向量机:用于可以被一个超曲面分开的问题 阅读全文
posted @ 2017-07-26 22:18 谦芊珺 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 上文中说过,逻辑斯蒂回归虽然称为回归,但它实际上是一种分类算法。认识逻辑斯蒂回归,首先需要知道sigmoid函数。下面公式1即为sigmoid函数$$g\left( x\right) =\dfrac {1}{1+e^{ x}}$$它的函数图像如图所示。 1、算法介绍 和上文中的回归算法一样,我们有m 阅读全文
posted @ 2017-07-26 22:17 谦芊珺 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 机器学习算法(一)线性回归 本文主要梳理一下线性回归和逻辑斯蒂回归这两大算法。这两个算法的关系是什么呢?答案是并没有什么关系。 这样说其实也不对,逻辑斯蒂回归里有线性回归的重要组成部分。但是二者又一个本质区别,就是线性回归是一个“回归”算法,而逻辑斯蒂回归是一个“分类”算法。这就导致两个算法永远像牛 阅读全文
posted @ 2017-07-26 22:10 谦芊珺 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 支持向量机是一种二分类模型,它的基本思想就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。但是,能将训练样本分开的划分超平面可能有很多,因此,我们应该致力于找位于两类训练样本“正中间”的划分超平面,因为这样的划分超平面对训练样本局部扰动的容忍性最好。支持向量机学习算法主要有三种, 阅读全文
posted @ 2016-08-20 12:54 谦芊珺 阅读(1507) 评论(0) 推荐(0) 编辑
摘要: 决策树是机器学习中一类非常常见的算法,它是一种分类与回归算法,但以分类为主。它的决策思维非常符合人类正常的决策方式。举一个简单的例子, 比如我们要挑选一个书包,我们就需要做出以下决策:我需要一个男包还是女包?女包。我需要一个双肩背包还是斜挎包?双肩包。我需要一个大包还是小包?小包。我需要一个白色的包 阅读全文
posted @ 2016-08-20 12:46 谦芊珺 阅读(2121) 评论(0) 推荐(0) 编辑
摘要: 近些年来,随着大数据、云计算、移动互联网、人工智能技术的兴起,“机器学习”成为了行业内炙手可热的一个名词。从通信互联网领域的专家,到各式各样的企业,甚至到普通的老百姓,都对“机器学习”技术略知一二。那么,机器学习到底是什么,它与我们常见的“人工智能”、“神经网络”、“数据挖掘“等相似概念都有什么关系 阅读全文
posted @ 2016-08-20 12:13 谦芊珺 阅读(1890) 评论(0) 推荐(1) 编辑
摘要: pip安装 http://zhidao.baidu.com/link?url=nkRwDOZ1ALMjRsWHGMR1nLSIyuVycoD4j-mhGDsYptPwDRGYcE8u4_B9VvYk10P69FU-EQTtV_s0qNw-gXKku_ numpy地址 https://sourcefo 阅读全文
posted @ 2016-06-23 10:02 谦芊珺 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 导入微博数据,用Navicat,弄了好久,累死我了 1、需要导入的是excel表格,里面含有汉字 首先将excel另存为csv格式,再将csv另存为txt格式,再将txt格式另存为UTF8编码的txt格式 2、导入时不要直接导入表,而是自己新建表,自己定义表的每个栏位和类型,并把下面的字符集选成UT 阅读全文
posted @ 2016-06-16 16:04 谦芊珺 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 最近研究了一下Mysql的初学应用,在此进行整理记录。 1、Windows系统下的安装 我用的是win10系统,在http://dev.mysql.com/downloads/mysql/ 下载相应版本的Mysql,下载后进行解压即可。 下载好后,进行安装,安装及配置步骤参照http://jingy 阅读全文
posted @ 2016-05-24 21:13 谦芊珺 阅读(272) 评论(1) 推荐(1) 编辑