摘要: 自学自然语言处理NLP 阅读全文
posted @ 2021-02-03 17:35 13线 阅读(32) 评论(0) 推荐(0)
摘要: #第3篇:三分钟热情学NLP-关键词提取TextRank算法 TextRank算法,借鉴了PageRank的思想,或者可以直接理解成:TextRank是PageRank的2.0版。 # 1、PageRank算法谷歌的2位创始人佩奇和布林,借鉴了评判论文重要性的方法(学术界,如果1篇论文被引用得越多, 阅读全文
posted @ 2021-02-03 17:28 13线 阅读(91) 评论(0) 推荐(0)
摘要: #第1篇:三分钟热情学NLP-Jieba分词 NLP,自然语言理解,即计算机对人类语言进行理解;NLP是人工智能皇冠上的明珠,是AI最难的领域之一; 1、人类语言有多复杂 人类语言是经过加工的,需要有有背景知识才能理解;比如 “夏天能穿多少就穿多少,冬天能传多少就穿多少” “单身的原因是喜欢上一个人 阅读全文
posted @ 2021-02-03 17:25 13线 阅读(57) 评论(0) 推荐(0)
摘要: 第4篇:3分钟热情学NLP,word2vec 在NLP领域,文本表示是第1步,也是很重要的1步。所谓文笔表示,即如何把自然语言的语言符合,转化成计算机能够处理的数字。 1、文本向量化 现阶段,文本向量化,大部分是通过词向量化来实现的;也有一部分算法,将整篇文章或整条句子作为最小处理单位来实现文本向量 阅读全文
posted @ 2021-02-03 17:24 13线 阅读(30) 评论(0) 推荐(0)
摘要: 第2篇:三分钟热情学NLP-关键词提取TF-IDF 一篇文章或1个文档中,哪些词对文章更重要?哪些词可以作为关键词?自动提取关键词可以快速地从海量的信息中提取和获取信息,下面简述下关键词提取技术。 1、关键词提取的机器学习方法 有监督的机器学习方法:构建1个丰富的词表,判断每个文档与词表中每个次的匹 阅读全文
posted @ 2021-02-03 17:21 13线 阅读(55) 评论(0) 推荐(0)
摘要: 3分钟热情学NLP第5篇,Wrod2vec算法实战 参考文章:https://blog.csdn.net/qq_30189255/article/details/103049569 #1、英文语料 本文采用的语料: 语料text8,保存在sentence中;text8有100mb大小; text8的 阅读全文
posted @ 2021-02-03 17:19 13线 阅读(116) 评论(0) 推荐(0)
摘要: 3分钟热情学NLP第6篇,Wrod2vec计算句子相似度 参考文章: 1、https://blog.csdn.net/joleoy/article/details/99741139 2、https://www.zhihu.com/question/29978268 #1、无监督,句子相似度的计算方法 阅读全文
posted @ 2021-02-03 17:18 13线 阅读(227) 评论(0) 推荐(0)
摘要: 3分钟热情学NLP第7篇,Wrod2vec计算句子相似度实战 #方法1,计算句子中各个词向量,得出句子的平均值 1、使用jieba分词,得出该句子包含的词; 2、计算每个词的词向量; 3、求得该句子的平均值 4、采用余弦值,计算各个句子的相似度; 输入: import numpy as np fro 阅读全文
posted @ 2021-02-03 17:16 13线 阅读(42) 评论(0) 推荐(0)