学习笔记CB010:递归神经网络、LSTM、自动抓取字幕
摘要:递归神经网络可存储记忆神经网络,LSTM是其中一种,在NLP领域应用效果不错。 递归神经网络(RNN),时间递归神经网络(recurrent neural network),结构递归神经网络(recursive neural network)。时间递归神经网络神经元间连接构成有向图,结构递归神经网络
阅读全文
学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec
摘要:人工神经网络,借鉴生物神经网络工作原理数学模型。 由n个输入特征得出与输入特征几乎相同的n个结果,训练隐藏层得到意想不到信息。信息检索领域,模型训练合理排序模型,输入特征,文档质量、文档点击历史、文档前链数目、文档锚文本信息,为找特征隐藏信息,隐藏层神经元数目设置少于输入特征数目,经大量样本训练能还
阅读全文
学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF、隐含语义索引模型
摘要:词义消歧,句子、篇章语义理解基础,必须解决。语言都有大量多种含义词汇。词义消歧,可通过机器学习方法解决。词义消歧有监督机器学习分类算法,判断词义所属分类。词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义。 有监督词义消歧方法。基于互信息词义消歧方法,两种语言对照,基于大量中英文对照语料
阅读全文
学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
摘要:中文分词把文本切分成词语,还可以反过来,把该拼一起的词再拼到一起,找到命名实体。 概率图模型条件随机场适用观测值条件下决定随机变量有有限个取值情况。给定观察序列X,某个特定标记序列Y概率,指数函数 exp(∑λt+∑μs)。符合最大熵原理。基于条件随机场命名实体识别方法属于有监督学习方法,利用已标注
阅读全文
学习笔记CB006:依存句法、LTP、n元语法模型、N-最短路径分词法、由字构词分词法、图论、概率论
摘要:依存句法分析,法国语言学家L.Tesniere1959年提出。句法,句子规则,句子成分组织规则。依存句法,成分间依赖关系。依赖,没有A,B存在错误。语义,句子含义。 依存句法强调介词、助词划分作用,语义依存注重实词间逻辑关系。依存句法随字面词语变化不同,语义依存不同字面词语可同一意思,句法结构不同句
阅读全文
学习笔记CB005:关键词、语料提取
摘要:关键词提取。pynlpir库实现关键词提取。 # coding:utf-8 import sys import importlib importlib.reload(sys) import pynlpir pynlpir.open() s = '怎么才能把电脑里的垃圾文件删除' key_words
阅读全文