随笔分类 - NLP
摘要:原文链接:http://www.one2know.cn/nlp24/ + 准备 数据集:AIML数据集 下载数据集并用Notepad++打开,复制到txt文件中方便打开 + 代码实现 数据很少,训练轮次不多,结果不好,仅当示例
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp23/ + N元模型 预测要输入的连续词,比如 如果抽取两个连续的词汇,则称之为二元模型 + 准备工作 数据集使用 Alice in Wonderland 将初始数据提取N grams 输出: + 如何实现 1.预处理:词转换为词向量 2
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp22/ + 预处理 数据集使用Facebook上的BABI数据集 将文件提取成可训练的数据集,包括:文章 问题 答案 输出: + 如何实现 1.预处理:创建字典并将文章,问题和答案映射到词表,进一步映射成向量形式 2.模型创建和验证:训练
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp21/ 根据已有文本LSTM自动生成文本 + 原理 与股票预测类似,用前面的n个字符预测下一个字符 https://www.cnblogs.com/peng8098/p/keras_5.html + 代码 输出:
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp20/ + 准备 Alice in Wonderland数据集可用于单词抽取,结合稠密网络可实现其单词的可视化,这与编码器 解码器架构类似。 + 代码 输出:不是二维的,为什么!!!看了两天不明白!
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp19/ + 使用IMDB情绪数据来比较CNN和RNN两种方法,预处理与上节相同 输出: + 如何实现 1.预处理 2.LSTM模型的构建和验证 3.模型评估 + 代码 输出: Using TensorFlow backend. x_tra
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp18/ + 准备 Keras的IMDB数据集,包含一个词集和对应的情感标签 输出: + 如何实现 1.预处理,数据整合到一个固定的维度 2.一维CNN模型的构建和验证 3.模型评估 + 代码 输出: Using TensorFlow ba
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp17/ + 数据集 scikit learn中20个新闻组,总邮件18846,训练集11314,测试集7532,类别20 输出: + 实现步骤 1. 预处理 1)去标点符号 2)分词 3)单词都转化成小写 4)去停用词 5)保留长度至少为
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp16/ + 深度学习中的核心主题是 和`循环神经网络(RNN)` 卷积神经网络 + CNN用于图像处理 卷积: 原始图像 5×5 滤波器 3×3 滤波器以步长大于小于1,到处平移,并与原始图像里的3×3做乘积运算,得到卷积特征/激活映射(
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp15/ + 对话引擎 1.了解目标用户 2.理解用于沟通得语言 3.了解用户的意图 4.应答用户,并给出进一步线索 + NLTK中的引擎
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp14/ + 情感在自然语言中的表达方式 | 例句 | 解释 | | | | | I am very happy | 开心的情感 | | She is so :( | 表达悲伤的图标 | 输出: + 高阶情感分析 输出:
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp13/ + 一个词可能有多个词义 | 例句 | 解释 | | | | | She is my date | date: 约会,日期 | | You have taken too many leaves to skip cleaning l
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp12/ + 代词是用来代替重复出现的名词 例句: 1.Ravi is a boy. He often donates money to the poor. 先出现主语,后出现代词,所以流动的方向从左到右,这类句子叫回指(Anaphora)
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp11/ + gensim.summarization库的函数 gensim.summarization.summarize(text, ratio=0.2, word_count=None, split=False) Parameters
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp10/ + 主题识别 是发现输入文本集合中存在的主题的过程 LDA算法,即狄利克雷分布算法 输出:
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp9/ + 多个维度判别文本之间相似度 1. 情感维度 Sentiment/Emotion 2. 感官维度 Sense 3. 特定词的出现 + 词频 TF 逆文本频率 IDF 构建N个M维向量,N是文档总数,M是所有文档的去重词汇量 + 余
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp8/ + 一条管道可以被看作一个多阶段的数据流系统,其中一个组件的输出被视为另一个组件的输入 + 管道特点: 1. 数据始终从一个组件流向另一个组件 2. 组件是一个只考虑输入和输出数据的黑盒 + NLP管道应有的功能: 1. 采集输入数
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp7/ + 命名实体 专有名词:人名 地名 产品名 | 例句 | 命名实体 | | | | | Hampi is on the South Bank of Tungabhabra river | Hampi,Tungabhabra Rive
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp6/ + 内置分块器 分块:从文本中抽取短语 输出: + 编写简单的RE分块器 输出: + 训练分块器 IOB标注格式: | 列 | 描述 | | | | | IOB第一列 | 输入句子中的单词 | | IOB第二列 | 单词对应的词性
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp5/ + NLTK内置词性标注器 用nltk.pos_tag()函数进行词性标注 输出: + 自己的词性标注器 输出: + 训练自己的词性标注器 输出: + 编写自己的文法 上下文无关文法: 1.开始符号/标记 2.终结符号集合 3.非终
阅读全文

浙公网安备 33010602011771号