摘要: 数据集与词性标注 数据集是NLP中的重要一环。 但是提到数据集,很多人的第一个想法可能是:“这玩意从网上下载就好了,不用管”。 真的不用管?最开始我也是这么认为的 于是我直奔CoNLL-2003去下载数据集。地址如下:https://www.clips.uantwerpen.be/conll2003 阅读全文
posted @ 2021-08-08 11:07 dayceng 阅读(1579) 评论(0) 推荐(0)
摘要: https://www.shangmayuan.com/a/6dea76b089614eb7947582d5.html 阅读全文
posted @ 2021-08-06 10:45 dayceng 阅读(267) 评论(0) 推荐(0)
摘要: NLP中分词是一件麻烦事,nltk可以一定程度上优雅的解决一些需求 如果你去搜索“nltk安装”,那么多半会得到以下的代码 import nltk nltk.download() 你多半不会进入如下界面(因为网络问题会提示远程连接失败) 然后你什么都没下载就试图去使用nltk,会报错如下: Look 阅读全文
posted @ 2021-07-18 16:47 dayceng 阅读(1364) 评论(0) 推荐(0)
摘要: NLTK项目地址: https://github.com/nltk/nltk_data/tree/gh-pages/packages NLTK基础分词用例: https://www.cnblogs.com/ketmales/archive/2013/05/31/3111046.html 词性标注: 阅读全文
posted @ 2021-07-18 16:19 dayceng 阅读(551) 评论(0) 推荐(0)
摘要: 词嵌入的特性 现在你有了一堆嵌入向量,我们可以开始学习他们之间的特性了 前情提要:https://www.cnblogs.com/DAYceng/p/14962528.html 先把各向量重新命名便于区分 Man对应e_man① Woman对应e_woman② King对应e_king③ Queen 阅读全文
posted @ 2021-07-02 15:44 dayceng 阅读(198) 评论(0) 推荐(0)
摘要: 在了解什么是**嵌入(embeddings)**之前,我们需要先搞清楚一个词语在NLP中是如何被表示的 注:本次不涉及任何具体算法,只是单纯对概念的理解 词汇表征 One-Hot 词汇的表示方法有很多,最有名的肯定是独热编码(One-Hot )了。因为不是重点,所以下面只简单介绍一下 废话不多说,上 阅读全文
posted @ 2021-07-02 11:28 dayceng 阅读(371) 评论(3) 推荐(2)
摘要: 梳理一下Pytorch项目的基本结构(其实TF的也差不多是这样,这种思路可以迁移到别的深度学习框架中) 结构树 checkpoints #存放训练完成的模型文件 ​ xxx.pkl #模型文件 data #存放数据文件(如txt)或者数据预处理文件 ​ __ init __.py ​ xxx.txt 阅读全文
posted @ 2021-06-27 10:43 dayceng 阅读(449) 评论(0) 推荐(0)
摘要: 概念 隐马尔可夫模型描述的是两个时序序列联合分布p(x,y)的概率模型,其中包含了两个序列: x序列外界可见(外界指的是观测者),称为观测序列(obsevation seuence) y序列外界不可见,称为状态序列( state sequence) 如观测x为单词,状态y为词性,我们需要根据单词序列 阅读全文
posted @ 2021-06-24 15:59 dayceng 阅读(484) 评论(0) 推荐(0)
摘要: 命名实体识别 概念 命名实体识别(Named Entity Recognition,简称NER) , 是指识别文本中具有特定意义的词(实体),主要包括人名、地名、机构名、专有名词等等,并把我们需要识别的词在文本序列中标注出来。 例如有一段文本:天津市空港经济区 我们要在上面文本中识别一些区域和地点, 阅读全文
posted @ 2021-06-23 15:47 dayceng 阅读(1420) 评论(0) 推荐(0)
摘要: 三大范式 1NF 第一范式 强调列的原子性,即列不可分 例如: 2NF 第二范式 前提是1NF,另外包含两个部分: 表必须具有一个主键; 没有包含在主键中的列必须完全依赖于主键,而不是只依赖主键的一部分;主键有多个列判断 例如: 上述表中,表(1)不能由单独的OederID(订单号)或者Produc 阅读全文
posted @ 2021-06-10 11:36 dayceng 阅读(185) 评论(0) 推荐(0)