随笔分类 -  NLP

摘要:![](https://img2020.cnblogs.com/blog/771778/202003/771778-20200314165953950-1692661329.png)![](https://img2020.cnblogs.com/blog/771778/202003/771778-20200314165957733-1758247810.png)![](https://img202... 阅读全文
posted @ 2020-03-14 17:01 致林 阅读(350) 评论(0) 推荐(0)
摘要:对话系统: Learning from Dialogue after Deployment: Feed Yourself, Chatbot! Incremental Learning from Scratch for Task Oriented Dialogue Systems Joint Effe 阅读全文
posted @ 2020-01-21 11:18 致林 阅读(860) 评论(0) 推荐(0)
摘要:一、意图识别 1. 正则 2. SVM 3. CNN 4. CNN LSTM 5. Bert classified 6. 匹配分类 二、实体抽取 1. CRF 2. BiLSTM 3. CNN BiLSTM CRF 三、对话管理 1. 基于规则 2. 统计学习 3. 时序多分类 4. 强化学习 四、 阅读全文
posted @ 2019-12-06 14:14 致林 阅读(582) 评论(0) 推荐(1)
摘要:版权声明:本文为博主原创文章,遵循 CC 4.0 BY SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/tcx1992/article/details/83377233 <! flowchart 箭头图标 勿删 基础原理: 共指消解技术主要用于 阅读全文
posted @ 2019-09-30 17:29 致林 阅读(1232) 评论(0) 推荐(0)
摘要:1. 建立并启动jena fuseki服务 参考: "https://www.cnblogs.com/bincoding/p/11223372.html" 2. 使用rdflib创建rdf文件 3. jena fuseki导入生成的rdf文件,需要utf 8格式 4. 执行查询 where里的三个值 阅读全文
posted @ 2019-07-22 00:52 致林 阅读(2749) 评论(1) 推荐(0)
摘要:1. 下载Jena Fuseki:http://jena.apache.org/download/index.cgi 2. 运行服务 windows解压后双击fuseki server.bat linux解压后运行命令 “–update”表示允许修改;“–loc”后面的参数,表示存放Fuseki数据 阅读全文
posted @ 2019-07-21 23:31 致林 阅读(3655) 评论(0) 推荐(0)
摘要:cips关于自然语言处理的深度科普文章,该文章整体介绍了中文自然语言处理的一些任务、难点、部分解决方案等,推荐NLP方向的都了解一下。 pdf下载链接: "中文信息处理发展报告(2016)" 中文信息学会网站: "http://www.cipsc.org.cn/index.php" 目录如下: 第一 阅读全文
posted @ 2019-02-02 10:27 致林 阅读(680) 评论(0) 推荐(0)
摘要:原文地址 http://blog.sina.com.cn/s/blog_574a437f01019poo.html 昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地 阅读全文
posted @ 2019-02-02 10:23 致林 阅读(655) 评论(0) 推荐(0)
摘要:自定义命名实体提取 阅读全文
posted @ 2018-12-12 15:06 致林 阅读(168) 评论(0) 推荐(0)
摘要:从零开始搭建FAQ引擎 深度语义匹配 阅读全文
posted @ 2018-11-18 19:51 致林 阅读(493) 评论(0) 推荐(0)
摘要:从零开始搭建FAQ引擎 基于ES的字面匹配 阅读全文
posted @ 2018-11-18 19:49 致林 阅读(502) 评论(0) 推荐(0)
摘要:文章介绍使用rasa nlu和 rasa core 实现一个电信领域对话系统demo,实现简单的业务查询办理功能,更完善的实现需要进一步数据的收集。demo基于玩具数据集,可以达到下面的效果: Bot loaded. Type a message and press enter : YOU:你是谁 阅读全文
posted @ 2018-10-28 21:06 致林 阅读(1105) 评论(0) 推荐(0)
摘要:本文介绍了一种新的语言表征模型 BERT——来自 Transformer 的双向编码器表征。与最近的语言表征模型不同,BERT 旨在基于所有层的左、右语境来预训练深度双向表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型,其性能超越许多使用任务特定架构 阅读全文
posted @ 2018-10-14 19:35 致林 阅读(604) 评论(0) 推荐(0)
摘要:水塘抽样是一系列的随机算法,其目的在于从包含n个项目的集合S中选取k个样本,其中n为一很大或未知的数量,尤其适用于不能把所有n个项目都存放到主内存的情况。 在高德纳的计算机程序设计艺术中,有如下问题: 可否在一未知大小的集合中,随机取出一元素? 。或者是Google面试题: I have a lin 阅读全文
posted @ 2018-05-20 23:11 致林 阅读(210) 评论(0) 推荐(0)
摘要:场景:上次回答word2vec相关的问题,回答的是先验概率和后验概率,没有回答到关键点。 词袋模型(Bag of Words, BOW)与词向量(Word Embedding)模型 词袋模型就是将句子分词,然后对每个词进行编码,常见的有one hot、TF IDF、Huffman编码,假设词与词之间 阅读全文
posted @ 2018-05-20 23:06 致林 阅读(12546) 评论(1) 推荐(1)
摘要:简介 查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于Python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部分是关于文本聚类的Kmeans聚类的原理,Java实现,R语言实现,甚至都有一个C++的实现。 正好我写的一些文章,我没能很好的分类,我想 阅读全文
posted @ 2018-04-18 22:35 致林 阅读(24326) 评论(2) 推荐(0)