雨后观山色

2020年4月29日

NLP学习笔记13---句法分析(Parsing)、时序模型、HMM模型(隐马尔科夫模型)、有向图--只能做科普

摘要： 1.句法分析 (1)入门小案例 2.时序模型 (1)时序数据和非时序数据时序数据：股票价格、语音、文本、温度非时序数据：图片、一个人的特征 3.隐马尔科夫模型(Hidden Markov Model) latent variable 隐式变量 observed 观测值 4.有向图 (1)有向图和阅读全文

posted @ 2020-04-29 10:07 雨后观山色阅读(833) 评论(0) 推荐(0)

2020年4月28日

NLP学习笔记12---信息抽取(Information Extraction 简称IE)、命名实体识别(Named Entity Recognition 简称NER)

摘要： 1.信息抽取介绍从非结构化数据中，抽取数据。非结构化数据包括图片、文本、视频、音频等内容，提取特征输入到model中，而结构化数据类似于数据库中的一个个字段。信息抽取主要包括两个部分：一个是抽取实体，另一个是抽取关系。信息抽取的典型应用： 2.命名实体识别 (1)简介小案例： (2)开源工阅读全文

posted @ 2020-04-28 10:56 雨后观山色阅读(2308) 评论(0) 推荐(0)

NLP学习笔记11---SVM支持向量机(Hinge loss)

摘要： 1.max-margin(很经典) SVM的目的就是使得margin值最大。由上图可以得到margin=2/||w|| 2.SVM的目标函数 (1)Hard Constraint(强限制条件) (2)Soft Constraint(弱限制条件) Hinge loss(Linear SVM): 利用阅读全文

posted @ 2020-04-28 09:34 雨后观山色阅读(521) 评论(0) 推荐(0)

2020年4月27日

NLP学习笔记10---逻辑回归(logistic regression)、梯度下降法(Gradient Descent)、模型复杂度和过拟合、正则、五折交叉验证

摘要： 1.逻辑回归的经典应用 Logistic回归为概率型非线性回归模型，是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常的问题是，研究某些因素条件下某个结果是否发生，比如医学中根据病人的一些症状来判断它是否患有某种病。典型案例：判断贷款人是否会出现违约现象从上图可知，逻辑回归多阅读全文

posted @ 2020-04-27 13:25 雨后观山色阅读(1358) 评论(1) 推荐(0)

2020年4月25日

NLP学习笔记09---python的pandas库和matplotlib库使用

摘要： 1.Pandas介绍 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效阅读全文

posted @ 2020-04-25 15:08 雨后观山色阅读(608) 评论(0) 推荐(0)

NLP学习笔记08---python编程高阶函数使用(numpy数组的创建、索引、装置、文件的操作等)

摘要： 1.列表推导式列表推导式（又称列表解析式）提供了一种简明扼要的方法来创建列表。它的结构是在一个中括号里包含一个表达式，然后是一个for语句，然后是 0 个或多个 for 或者 if 语句。那个表达式可以是任意的，意思是你可以在列表中放入任意类型的对象。返回结果将是一个新的列表，在这个以 if 和阅读全文

posted @ 2020-04-25 13:56 雨后观山色阅读(524) 评论(0) 推荐(0)

2020年4月24日

NLP学习笔记07---专家系统、机器学习、朴素贝叶斯、评估的标准(精确率、召回率)

摘要： 1.学习的两种主流方式专家系统与基于概率的系统最根本的区别就是：数据量的不同数据量大则优先使用基于概率的系统；若数据量小或没有数据，则推荐使用专家系统。 2.专家系统介绍专家系统的特点：能够处理不确定性、知识的表示、可解释性、可以做知识推理 3.机器学习入门介绍 (1)定义 (2)机器学习的分阅读全文

posted @ 2020-04-24 15:09 雨后观山色阅读(1144) 评论(0) 推荐(0)

NLP学习笔记06---语言模型(Chain rule、markov assumption、unigram、bigram、N-gram)

摘要： 1.Noise channel model 上图公式，可以利用贝叶斯公式进行推导。 2.数学基础 (1)Chain rule(非常经典) 示例：上图，说明chain rule所得的条件概率项是通过统计所给文档中出现今天、是、春节、我们、都的次数(图中出现2次)和出现今天、是、春节、我们、都之后再出阅读全文

posted @ 2020-04-24 11:09 雨后观山色阅读(1385) 评论(0) 推荐(0)

2020年4月23日

NLP学习笔记05---文本的分布式表达

摘要： 1.One-hot表示方法的缺点向量的大小与词典的长度相等主要缺点：<1>不能表示语义相似度 <2>向量很稀疏 2.分布式表示(Distributed Representation) 词向量输入足够多的数据(10^10的单词) 词向量代表单词的意思。word2vec,某种意义上可以理解成词的意阅读全文

posted @ 2020-04-23 15:44 雨后观山色阅读(705) 评论(0) 推荐(0)

NLP学习笔记04---文本处理(分词、词过滤、文本表示、one-hot、文本相似度、TF-IDF)

摘要： 1.文本处理的一般流程上图中：清洗包括无用的标签(例如从网上爬取的文本中可能包含html标签)、特殊的符号(！感叹号、省略号等)、停用词、大写转小写标准化包括stemming、lemmazatic(就是对英文词汇中的名词、动词转换化标准形态) 本篇博客主要包括：分词(word segmenta 阅读全文

posted @ 2020-04-23 14:47 雨后观山色阅读(2159) 评论(0) 推荐(0)

公告