Fork me on GitHub

随笔分类 -  NLP

摘要:词向量基础 独热码表示虽然简单,但是到了百万级就会造成内存灾难 distributed representation可以解决这样的问题,他的思路是通过训练,将每个词都映射到一个较短的词向量上。这样就构成了向量空间,今儿可以采用普通的统计学问题来解决 "Royalty","Masculinity", 阅读全文
posted @ 2021-01-07 16:37 鲍鲍tql 阅读(372) 评论(0) 推荐(0)
摘要:基本概念 TP、True Positive 真阳性:预测为正,实际也为正 FP、False Positive 假阳性:预测为正,实际为负 FN、False Negative 假阴性:预测与负、实际为正 TN、True Negative 真阴性:预测为负、实际也为负 以分类问题为例: 首先看真阳性: 阅读全文
posted @ 2020-12-04 10:26 鲍鲍tql 阅读(679) 评论(0) 推荐(0)
摘要:从知识图谱到认知图谱: 历史、发展与展望 知识图谱的研究热点逐渐出现重数量轻结构化的倾向,这与深度学习和联结主义思想的盛行密不可分。认知图谱依据人类认知的双加工理论,动态构建带有上下文信息的知识图谱并进行推理。本文回顾了知识图谱的发展历史指出认知图谱提出的动机并展望其发展前景。 知识图谱是由谷歌(G 阅读全文
posted @ 2020-09-26 09:25 鲍鲍tql 阅读(1860) 评论(0) 推荐(0)
摘要:MOOCCube是一个服务于MOOC相关研究的开源大规模数据仓库。和已有类似的教育资源数据库相比它的规模庞大,数据丰富且多样。其中的学生行为记录包括学习时长、学习次数、学习视频的区间等非常完善的学生行为。包含近20万名学生的、总计将近500万人次的视频观看学习的记录。这部分数据其实可以拿来做包括用户 阅读全文
posted @ 2020-06-23 20:30 鲍鲍tql 阅读(2543) 评论(0) 推荐(0)
摘要:摘要: 本文通过提取问题中的实体,通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图,子图中的每一个结点或边都可以作为候选答案。通过观察问题,依据某些规则或模板进行信息抽取,得到表征问题和候选答案特征的特征向量,建立分类器,通过输入特征向量对候选答案进行筛选,从而得出最终答案。 方法: 阅读全文
posted @ 2020-03-23 11:47 鲍鲍tql 阅读(580) 评论(0) 推荐(1)
摘要:Attention isAllYouNeed详细解读 国家数字化学习工程技术研究中心 鲍一鸣 论文原址:https://arxiv.org/abs/1706.03762 本人博客地址:https://www.cnblogs.com/baobaotql/p/11662720.html 论文复现:htt 阅读全文
posted @ 2019-10-12 18:49 鲍鲍tql 阅读(8506) 评论(1) 推荐(0)
摘要:毕设做的是文本纠错方面,然后今天进组见研究生导师 。老师对我做的东西蛮感兴趣。然后介绍自己现在做的一些项目,其中有个模块需要有用到文本纠错功能。 要求1:有多人同时在线编辑文档,然后文档功能有类似Word中的在疑似错误下标浪线,或者标记高亮,并且要推荐修改选项 要求2:语料数据的获取、处理以及完善 阅读全文
posted @ 2019-07-24 16:08 鲍鲍tql 阅读(2665) 评论(12) 推荐(0)
摘要:在知乎上看到了一个问题“有哪些你喜欢的逻辑清晰,书写优雅的源代码呢?” 有人po出了大神Peter Norvig的‘Spelling Corrector’(拼写检查器) by http://norvig.com/spell-correct.html 文章大意:2007年的一个星期,两位朋友(迪恩和比 阅读全文
posted @ 2019-04-13 21:11 鲍鲍tql 阅读(835) 评论(0) 推荐(0)
摘要:中文文本最常用的就我而言应该就是结巴分词的分词工具。当然还有其他分词工具Hanlp、THULAC、LTP、NLPIR等。 阅读全文
posted @ 2019-04-13 19:15 鲍鲍tql 阅读(1014) 评论(0) 推荐(0)