随笔分类 -  NLP

基于特征和条件随机场的中文地址解析方法
摘要:一篇没投的文文章。分享出来。 【摘要】由于中文地址使用缺乏规范和汉语语言的特点,在地址匹配前首先需要进行地址解析,以识别地址中的地址要素和其他成分。传统的基于词典和规则的方法过度依赖词典和规则库,对歧义词和未登录词的识别率低。本文采用自然语言标注的思想,借助条件随机场模型,利用地址成分中的词性特征、 阅读全文

posted @ 2021-10-30 10:32 米仓山下 阅读(1108) 评论(0) 推荐(0)

利用搜狐新闻语料库训练100维的word2vec——使用python中的gensim模块
摘要:关于word2vec的原理知识参考文章https://www.cnblogs.com/Micang/p/10235783.html 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 数据处理参考这篇文章 模型训练: 模型使用: 输出: 阅读全文

posted @ 2019-02-12 23:53 米仓山下 阅读(513) 评论(0) 推荐(0)

关键字提取算法TF-IDF和TextRank(python3)————实现TF-IDF并jieba中的TF-IDF对比,使用jieba中的实现TextRank
摘要:关键词: TF-IDF实现、TextRank、jieba、关键词提取数据来源: 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 数据处理参考前一篇文章介绍: 介绍了文本关键词提取的原理,tfidf算法和TextRank算法 利用sklearn实现tfi 阅读全文

posted @ 2019-02-12 20:23 米仓山下 阅读(22231) 评论(1) 推荐(3)

利用朴素贝叶斯分类算法对搜狐新闻进行分类(python)
摘要:数据来源 https://www.sogou.com/labs/resource/cs.php介绍:来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息格式说明:<doc><url>页面URL</url><docno>页面ID</docno>< 阅读全文

posted @ 2019-02-02 13:10 米仓山下 阅读(4239) 评论(2) 推荐(1)

利用python中的gensim模块训练和测试word2vec
摘要:word2vec的基础知识介绍参考上一篇博客和列举的参考资料。 首先利用安装gensim模块,相关依赖如下,注意版本要一致: Python >= 2.7 (tested with versions 2.7, 3.5 and 3.6) NumPy >= 1.11.3 SciPy >= 0.18.1 S 阅读全文

posted @ 2019-01-15 22:07 米仓山下 阅读(2959) 评论(0) 推荐(0)

对word2vec的理解及资料整理
摘要:对word2vec的理解及资料整理 无他,在网上看到好多对word2vec的介绍,当然也有写的比较认真的,但是自己学习过程中还是看了好多才明白,这里按照自己整理梳理一下资料,形成提纲以便学习。 介绍较好的文章: 一、什么是Word2Vec? 简单地说就是讲单词word转换成向量vector来表示,通 阅读全文

posted @ 2019-01-07 21:33 米仓山下 阅读(3872) 评论(0) 推荐(0)

python利用Trie(前缀树)实现搜索引擎中关键字输入提示(学习Hash Trie和Double-array Trie)
摘要:python利用Trie(前缀树)实现搜索引擎中关键字输入提示(学习Hash Trie和Double-array Trie) 主要包括两部分内容:(1)利用python中的dict实现Trie;(2)按照darts-java的方法做python的实现Double-array Trie比较:(1)的实 阅读全文

posted @ 2018-12-11 14:06 米仓山下 阅读(3904) 评论(5) 推荐(0)

利用trie树实现前缀输入提示及trie的python实现
摘要:代码来自https://github.com/wklken/suggestion/blob/master/easymap/suggest.py 还实现了缓存功能,搜索某个前缀超过一定次数时,进行缓存,减少搜索时间:将词后缀部分存储在节点 使用了词频信息,可以对返回的列表进行排序 使用dict实现tr 阅读全文

posted @ 2018-12-06 23:16 米仓山下 阅读(467) 评论(0) 推荐(0)

利用python实现简单词频统计、构建词云
摘要:1、利用jieba分词,排除停用词stopword之后,对文章中的词进行词频统计,并用matplotlib进行直方图展示 注意:matplotlib展示中文需要进行相应设置 2、利用jieba分词,利用collections统计词频,利用wordcloud生成词云,并定义了 词频背景,最后通过mat 阅读全文

posted @ 2018-12-06 23:02 米仓山下 阅读(4670) 评论(0) 推荐(0)

python实现字符串中的半全角转换
摘要:全角和半角的空格的Unicode值相差12256 除空格外的全角和半角的Unicode值相差65248 阅读全文

posted @ 2018-10-10 23:22 米仓山下 阅读(490) 评论(0) 推荐(0)

python中的字符串编码问题——4.unicode编解码(以实际工作中遇到的韩文编码为例)
摘要:韩文unicode编解码 问题是这样,工作中遇到有韩文数据出现乱码,说是unicode码。 类似这样: id name 323 52186863 149 63637538 314 65516863 322 69826863 290 83645668 355 724851956025 397 7248 阅读全文

posted @ 2018-09-30 18:34 米仓山下 阅读(3202) 评论(0) 推荐(0)

python汉字转拼音
摘要:上代码: 用到了文件 阅读全文

posted @ 2018-03-28 11:26 米仓山下 阅读(339) 评论(0) 推荐(0)

导航