会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
雨后观山色
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
20
21
22
23
24
25
26
27
28
···
54
下一页
2020年4月29日
NLP学习笔记13---句法分析(Parsing)、时序模型、HMM模型(隐马尔科夫模型)、有向图--只能做科普
摘要: 1.句法分析 (1)入门小案例 2.时序模型 (1)时序数据和非时序数据 时序数据:股票价格、语音、文本、温度 非时序数据:图片、一个人的特征 3.隐马尔科夫模型(Hidden Markov Model) latent variable 隐式变量 observed 观测值 4.有向图 (1)有向图和
阅读全文
posted @ 2020-04-29 10:07 雨后观山色
阅读(828)
评论(0)
推荐(0)
2020年4月28日
NLP学习笔记12---信息抽取(Information Extraction 简称IE)、命名实体识别(Named Entity Recognition 简称NER)
摘要: 1.信息抽取介绍 从非结构化数据中,抽取数据。 非结构化数据包括图片、文本、视频、音频等内容,提取特征输入到model中,而结构化数据类似于数据库中的一个个字段。 信息抽取主要包括两个部分:一个是抽取实体,另一个是抽取关系。 信息抽取的典型应用: 2.命名实体识别 (1)简介 小案例: (2)开源工
阅读全文
posted @ 2020-04-28 10:56 雨后观山色
阅读(2280)
评论(0)
推荐(0)
NLP学习笔记11---SVM支持向量机(Hinge loss)
摘要: 1.max-margin(很经典) SVM的目的就是使得margin值最大。 由上图可以得到margin=2/||w|| 2.SVM的目标函数 (1)Hard Constraint(强限制条件) (2)Soft Constraint(弱限制条件) Hinge loss(Linear SVM): 利用
阅读全文
posted @ 2020-04-28 09:34 雨后观山色
阅读(517)
评论(0)
推荐(0)
2020年4月27日
NLP学习笔记10---逻辑回归(logistic regression)、梯度下降法(Gradient Descent)、模型复杂度和过拟合、正则、五折交叉验证
摘要: 1.逻辑回归的经典应用 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是否患有某种病。 典型案例: 判断贷款人是否会出现违约现象 从上图可知,逻辑回归多
阅读全文
posted @ 2020-04-27 13:25 雨后观山色
阅读(1344)
评论(1)
推荐(0)
2020年4月25日
NLP学习笔记09---python的pandas库和matplotlib库使用
摘要: 1.Pandas介绍 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效
阅读全文
posted @ 2020-04-25 15:08 雨后观山色
阅读(603)
评论(0)
推荐(0)
NLP学习笔记08---python编程高阶函数使用(numpy数组的创建、索引、装置、文件的操作等)
摘要: 1.列表推导式 列表推导式(又称列表解析式)提供了一种简明扼要的方法来创建列表。 它的结构是在一个中括号里包含一个表达式,然后是一个for语句,然后是 0 个或多个 for 或者 if 语句。那个表达式可以是任意的,意思是你可以在列表中放入任意类型的对象。返回结果将是一个新的列表,在这个以 if 和
阅读全文
posted @ 2020-04-25 13:56 雨后观山色
阅读(519)
评论(0)
推荐(0)
2020年4月24日
NLP学习笔记07---专家系统、机器学习、朴素贝叶斯、评估的标准(精确率、召回率)
摘要: 1.学习的两种主流方式 专家系统与基于概率的系统最根本的区别就是:数据量的不同 数据量大则优先使用基于概率的系统;若数据量小或没有数据,则推荐使用专家系统。 2.专家系统介绍 专家系统的特点:能够处理不确定性、知识的表示、可解释性、可以做知识推理 3.机器学习入门介绍 (1)定义 (2)机器学习的分
阅读全文
posted @ 2020-04-24 15:09 雨后观山色
阅读(1137)
评论(0)
推荐(0)
NLP学习笔记06---语言模型(Chain rule、markov assumption、unigram、bigram、N-gram)
摘要: 1.Noise channel model 上图公式,可以利用贝叶斯公式进行推导。 2.数学基础 (1)Chain rule(非常经典) 示例: 上图,说明chain rule所得的条件概率项是通过统计所给文档中出现今天、是、春节、我们、都的次数(图中出现2次)和出现今天、是、春节、我们、都之后再出
阅读全文
posted @ 2020-04-24 11:09 雨后观山色
阅读(1379)
评论(0)
推荐(0)
2020年4月23日
NLP学习笔记05---文本的分布式表达
摘要: 1.One-hot表示方法的缺点 向量的大小与词典的长度相等 主要缺点:<1>不能表示语义相似度 <2>向量很稀疏 2.分布式表示(Distributed Representation) 词向量 输入足够多的数据(10^10的单词) 词向量代表单词的意思。word2vec,某种意义上可以理解成词的意
阅读全文
posted @ 2020-04-23 15:44 雨后观山色
阅读(700)
评论(0)
推荐(0)
NLP学习笔记04---文本处理(分词、词过滤、文本表示、one-hot、文本相似度、TF-IDF)
摘要: 1.文本处理的一般流程 上图中: 清洗包括无用的标签(例如从网上爬取的文本中可能包含html标签)、特殊的符号(!感叹号、省略号等)、停用词、大写转小写 标准化包括stemming、lemmazatic(就是对英文词汇中的名词、动词转换化标准形态) 本篇博客主要包括:分词(word segmenta
阅读全文
posted @ 2020-04-23 14:47 雨后观山色
阅读(2136)
评论(0)
推荐(0)
上一页
1
···
20
21
22
23
24
25
26
27
28
···
54
下一页
公告