NLP - 随笔分类 - 米仓山下

基于特征和条件随机场的中文地址解析方法

摘要：一篇没投的文文章。分享出来。【摘要】由于中文地址使用缺乏规范和汉语语言的特点，在地址匹配前首先需要进行地址解析，以识别地址中的地址要素和其他成分。传统的基于词典和规则的方法过度依赖词典和规则库，对歧义词和未登录词的识别率低。本文采用自然语言标注的思想，借助条件随机场模型，利用地址成分中的词性特征、阅读全文

posted @ 2021-10-30 10:32 米仓山下阅读(1108) 评论(0) 推荐(0)

利用搜狐新闻语料库训练100维的word2vec——使用python中的gensim模块

摘要：关于word2vec的原理知识参考文章https://www.cnblogs.com/Micang/p/10235783.html 语料数据来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据数据处理参考这篇文章模型训练：模型使用：输出：阅读全文

posted @ 2019-02-12 23:53 米仓山下阅读(513) 评论(0) 推荐(0)

关键字提取算法TF-IDF和TextRank（python3）————实现TF-IDF并jieba中的TF-IDF对比，使用jieba中的实现TextRank

摘要：关键词： TF-IDF实现、TextRank、jieba、关键词提取数据来源：语料数据来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据数据处理参考前一篇文章介绍：介绍了文本关键词提取的原理，tfidf算法和TextRank算法利用sklearn实现tfi 阅读全文

posted @ 2019-02-12 20:23 米仓山下阅读(22231) 评论(1) 推荐(3)

利用朴素贝叶斯分类算法对搜狐新闻进行分类（python）

摘要：数据来源 https://www.sogou.com/labs/resource/cs.php介绍：来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息格式说明：<doc><url>页面URL</url><docno>页面ID</docno>< 阅读全文

posted @ 2019-02-02 13:10 米仓山下阅读(4239) 评论(2) 推荐(1)

利用python中的gensim模块训练和测试word2vec

摘要：word2vec的基础知识介绍参考上一篇博客和列举的参考资料。首先利用安装gensim模块，相关依赖如下，注意版本要一致： Python >= 2.7 (tested with versions 2.7, 3.5 and 3.6) NumPy >= 1.11.3 SciPy >= 0.18.1 S 阅读全文

posted @ 2019-01-15 22:07 米仓山下阅读(2959) 评论(0) 推荐(0)

对word2vec的理解及资料整理

摘要：对word2vec的理解及资料整理无他，在网上看到好多对word2vec的介绍，当然也有写的比较认真的，但是自己学习过程中还是看了好多才明白，这里按照自己整理梳理一下资料，形成提纲以便学习。介绍较好的文章：一、什么是Word2Vec？简单地说就是讲单词word转换成向量vector来表示，通阅读全文

posted @ 2019-01-07 21:33 米仓山下阅读(3872) 评论(0) 推荐(0)

python利用Trie(前缀树)实现搜索引擎中关键字输入提示（学习Hash Trie和Double-array Trie）

摘要：python利用Trie(前缀树)实现搜索引擎中关键字输入提示（学习Hash Trie和Double-array Trie）主要包括两部分内容：（1）利用python中的dict实现Trie；（2）按照darts-java的方法做python的实现Double-array Trie比较：（1）的实阅读全文

posted @ 2018-12-11 14:06 米仓山下阅读(3904) 评论(5) 推荐(0)

利用trie树实现前缀输入提示及trie的python实现

摘要：代码来自https://github.com/wklken/suggestion/blob/master/easymap/suggest.py 还实现了缓存功能，搜索某个前缀超过一定次数时，进行缓存，减少搜索时间：将词后缀部分存储在节点使用了词频信息，可以对返回的列表进行排序使用dict实现tr 阅读全文

posted @ 2018-12-06 23:16 米仓山下阅读(467) 评论(0) 推荐(0)

利用python实现简单词频统计、构建词云

摘要：1、利用jieba分词，排除停用词stopword之后，对文章中的词进行词频统计，并用matplotlib进行直方图展示注意：matplotlib展示中文需要进行相应设置 2、利用jieba分词，利用collections统计词频，利用wordcloud生成词云，并定义了词频背景，最后通过mat 阅读全文

posted @ 2018-12-06 23:02 米仓山下阅读(4670) 评论(0) 推荐(0)

python实现字符串中的半全角转换

摘要：全角和半角的空格的Unicode值相差12256 除空格外的全角和半角的Unicode值相差65248 阅读全文

posted @ 2018-10-10 23:22 米仓山下阅读(490) 评论(0) 推荐(0)

python中的字符串编码问题——4.unicode编解码（以实际工作中遇到的韩文编码为例）

摘要：韩文unicode编解码问题是这样，工作中遇到有韩文数据出现乱码，说是unicode码。类似这样： id name 323 52186863 149 63637538 314 65516863 322 69826863 290 83645668 355 724851956025 397 7248 阅读全文

posted @ 2018-09-30 18:34 米仓山下阅读(3202) 评论(0) 推荐(0)

python汉字转拼音

摘要：上代码：用到了文件阅读全文

posted @ 2018-03-28 11:26 米仓山下阅读(339) 评论(0) 推荐(0)

米仓山下

随笔分类 - NLP