NLP - 随笔分类 - 伏草惟存

如何使用正则做文本数据的清洗（附免费AI视频福利）

摘要：数据清理指删除、更正错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误，同样加强来自各个单独信息系统不同数据间的一致性。本章首先介绍了新闻语料的基本情况及语料构建的相关原则；然后，回顾对比递归遍历与生成器遍历，打造一款高效的文件读取工具；最后，结合正则数据清洗方法完成新闻语料的批量处理。（本文原创，转载标明出处）阅读全文

posted @ 2019-04-30 10:11 伏草惟存阅读(5195) 评论(0) 推荐(0)

一步步教你轻松学K-means聚类算法

摘要：导读：k-均值算法（英文：k-means clustering），属于比较常用的算法之一，文本首先介绍聚类的理论知识包括什么是聚类、聚类的应用、聚类思想、聚类优缺点等等；然后通过k-均值聚类案例实现及其可视化有一个直观的感受，针对算法模型进行分析和结果优化提出了二分k-means算法。最后我们调用机器学习库函数，很短的代码完成聚类算法。（本文原创，转载必须注明出处：决策树模型算法研究与案例分析）阅读全文

posted @ 2018-09-13 09:13 伏草惟存阅读(30873) 评论(0) 推荐(7)

一步步教你轻松学逻辑回归模型算法

摘要：导读：逻辑回归（Logistic regression）即逻辑模型，属于常见的一种分类算法。本文将从理论介绍开始，搞清楚什么是逻辑回归、回归系数、算法思想、工作原理及其优缺点等。进一步通过两个实际案例深化理解逻辑回归，以及在工程应用进行实现。（本文原创，转载必须注明出处：决策树模型算法研究与案例分析）阅读全文

posted @ 2018-09-06 16:32 伏草惟存阅读(5137) 评论(0) 推荐(1)

一步步教你轻松学朴素贝叶斯模型算法Sklearn深度篇3

摘要：朴素贝叶斯模型是机器学习常用的模型算法之一，其在文本分类方面简单易行，且取得不错的分类效果。所以很受欢迎，对于朴素贝叶斯的学习，本文首先介绍理论知识即朴素贝叶斯相关概念和公式推导，为了加深理解，采用一个维基百科上面性别分类例子进行形式化描述。然后通过编程实现朴素贝叶斯分类算法，并在屏蔽社区言论、垃圾邮件、个人广告中获取区域倾向等几个方面进行应用。由于篇幅较长，采用理论理解、案例实现、sklearn优化三个部分进行学习。（本文原创，转载必须注明出处：朴素贝叶斯模型算法研究与实例分析）阅读全文

posted @ 2018-09-04 15:47 伏草惟存阅读(4676) 评论(0) 推荐(1)

一步步教你轻松学朴素贝叶斯模型实现篇2

摘要：朴素贝叶斯模型是机器学习常用的模型算法之一，其在文本分类方面简单易行，且取得不错的分类效果。所以很受欢迎，对于朴素贝叶斯的学习，本文首先介绍理论知识即朴素贝叶斯相关概念和公式推导，为了加深理解，采用一个维基百科上面性别分类例子进行形式化描述。然后通过编程实现朴素贝叶斯分类算法，并在屏蔽社区言论、垃圾邮件、个人广告中获取区域倾向等几个方面进行应用，由于篇幅较长，采用理论理解、案例实现、sklearn优化三个部分进行学习。（本文原创，转载必须注明出处：朴素贝叶斯模型算法研究与实例分析）阅读全文

posted @ 2018-09-04 09:05 伏草惟存阅读(2906) 评论(0) 推荐(3)

一步步教你轻松学朴素贝叶斯模型算法理论篇1

摘要：朴素贝叶斯模型是机器学习常用的模型算法之一，其在文本分类方面简单易行，且取得不错的分类效果。所以很受欢迎，对于朴素贝叶斯的学习，本文首先介绍理论知识即朴素贝叶斯相关概念和公式推导，为了加深理解，采用一个维基百科上面性别分类例子进行形式化描述。然后通过编程实现朴素贝叶斯分类算法，并在屏蔽社区言论、垃圾邮件、个人广告中获取区域倾向等几个方面进行应用，包括创建数据集、数据预处理、词集模型和词袋模型、朴素贝叶斯模型训练和优化等。然后结合复旦大学新闻语料进行朴素贝叶斯的应用。最后，大家熟悉其原理和实现之后，采用机器学习sklearn包进行实现和优化。由于篇幅较长，采用理论理解、案例实现、sklearn优化三个部分进行学习。（本文原创，转载必须注明出处：朴素贝叶斯模型算法研究与实例分析）阅读全文

posted @ 2018-09-03 17:54 伏草惟存阅读(4748) 评论(0) 推荐(2)

一步步教你轻松学决策树算法

摘要：决策树算法是一种基本的分类与回归方法，是最经常使用的算法之一。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是基于规则的集合。本文首先介绍决策树定义、工作原理、算法流程、优缺点等，然后结合案例进行分析。（本文原创，转载必须注明出处：决策树模型算法研究与案例分析）阅读全文

posted @ 2018-08-27 16:34 伏草惟存阅读(5096) 评论(2) 推荐(3)

探讨自然语言处理技术学习与思考

摘要：随着人工智能的快速发展，自然语言处理和机器学习应用愈加广泛。但是对于初学者入门还是有一定难度，对于该领域整体概况不能明晰。本章主要从发展历程、研究现状、应用前景等角度整体介绍自然语言处理和机器学习，让读者对该技术领域有个系统而全面的认识。阅读全文

posted @ 2018-08-23 10:53 伏草惟存阅读(1816) 评论(0) 推荐(0)

一步步教你轻松学KNN模型算法

摘要：导读：机器学习算法中KNN属于比较简单的典型算法，既可以做聚类又可以做分类使用。本文通过一个模拟的实际案例进行讲解。整个流程包括：采集数据、数据格式化处理、数据分析、数据归一化处理、构造算法模型、评估算法模型和算法模型的应用。（本文原创，转载必须注明出处：基于KNN分类算法模型为案例进行机器学习研究）阅读全文

posted @ 2018-07-24 08:52 伏草惟存阅读(15089) 评论(0) 推荐(1)

结巴分词和自然语言处理HanLP处理手记

摘要：手记实用系列文章： 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记代码封装类：运行效果：阅读全文

posted @ 2017-10-16 11:41 伏草惟存阅读(5579) 评论(1) 推荐(2)

Python中文语料批量预处理手记

摘要：手记实用系列文章： 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记语料预处理封装类：执行结果：阅读全文

posted @ 2017-10-16 11:39 伏草惟存阅读(5912) 评论(4) 推荐(2)

Python中调用自然语言处理工具HanLP手记

摘要：手记实用系列文章： 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 HanLP方法封装类： HanLP运行结果： python调用HanLP的jar包阅读全文

posted @ 2017-10-16 11:37 伏草惟存阅读(6467) 评论(1) 推荐(0)

Python中结巴分词使用手记

摘要：手记实用系列文章： 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记结巴分词方法封装类结巴分词的运行结果阅读全文

posted @ 2017-10-16 11:34 伏草惟存阅读(5804) 评论(0) 推荐(0)

自然语言处理手记

摘要：手记实用系列文章： 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 1 中文自然语言预处理实验数据预处理（本文采用python版结巴分词） 1.对于阅读全文

posted @ 2017-10-16 11:27 伏草惟存阅读(1114) 评论(0) 推荐(1)

【NLP】Python实例：基于文本相似度对申报项目进行查重设计

摘要：关于查重系统很多人并不陌生，无论本科还是硕博毕业都不可避免涉及论文查重问题，这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核，传统的方式人力物力比较大，且伴随季度性的繁重工作，效率不高。基于此，单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献，终未得到有价值的参考资料，这个也是自然。首先类似知网，paperpass这样的商业公司其毕业申报专利并进行保密，其他科研单位因发展需要也不会开源。笔者就结合NLP相关知识进行设计一款自主的查重系统，首先采用自然语言处理方法主要提出两个模型：科技项目查重的训练模型和科技项目查重的测试模型。其中训练模型主要对数据的清洗预处理及其规约化处理，测试系统也是主查重系统，对其查重原理和性能进行设计实现。最后将其封装成包，PHP或者Java等语言调用即可。（本文原创编著，转载注明出处:Python实例：申报项目查重系统设计与实现）阅读全文

posted @ 2017-05-18 17:53 伏草惟存阅读(19284) 评论(4) 推荐(0)

【NLP】3000篇搜狐新闻语料数据预处理器的python实现

摘要：关于自然语言处理模型训练亦或是数据挖掘、文本处理等等，均离不开数据清洗，数据预处理的工作。这里的数据不仅仅指狭义上的文本数据，当然也包括视频数据、语音数据、图片数据、监控的流数据等等。其中数据预处理也有必要强调下，决然不是简单是分词工具处理后，去去停用词那么简单。即使去停用词，你选择的粒度尺寸也是有影响的，这跟工作性质和精确度要求也有着紧密的联系。其次选择多大的规模以及怎样维度都是有讲究的。本文由于主要针对新闻文本语料处理，经处理后可用于文本分类、文本聚类、特征提取、文本摘要等学习模型的训练。首先本文介绍下新闻语料的文本信息和编码问题；其次，对本实验运行的环境进行简单介绍，以及整个预处理器的框架构造；接着对单文本和批量文本的预处理工作的原理和实现介绍；还有对python如何调用java程序也通过实例进行演示。最后，对jieba分词工具的主要实现进行补充。本人邮箱：datathinks@qq.com，主页：http://www.cnblogs.com/baiboy/（本文原创，转载请标注原文出处:3000篇搜狐新闻语料数据预处理器的python实现）阅读全文

posted @ 2017-05-05 19:46 伏草惟存阅读(5265) 评论(1) 推荐(1)

Python自然语言处理工具小结

摘要：Python自然语言处理工具小结作者：白宁超 2016年11月21日21:45:26 目录【Python NLP】干货！详述Python NLTK下如何使用stanford NLP工具包(1) 【Python NLP】Python 自然语言处理工具小结(2) 【Python NLP】Python 阅读全文

posted @ 2016-11-21 22:01 伏草惟存阅读(17424) 评论(3) 推荐(8)

【NLP】Python NLTK处理原始文本

摘要：摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍：1）怎样编写程序访问本地和网络上的文件，从而获得无限的语言材料？2）如何把文档分割成单独的单词和标点符号，并进行文本语料上的分析？3）怎样编写程序产生格式化输出，并把结果保存在文件中？关于Python基础知识可以参看本人的【Python五篇慢慢弹】系列文章（本文原创编著，转载注明出处:Python NLTK处理原始文本）阅读全文

posted @ 2016-11-08 22:47 伏草惟存阅读(18932) 评论(0) 推荐(4)

【NLP】Python NLTK获取文本语料和词汇资源

摘要：摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍NLTK（Natural language Toolkit）的几种语料库，以及内置模块下函数的基本操作，诸如双连词、停用词、词频统计、构造自己的语料库等等，这些都是非常实用的。主要还是基础知识，关于python方面知识，可以参看本人的【Python五篇慢慢弹】系列文章（本文原创编著，转载注明出处:Python NLTK获取文本语料和词汇资源）阅读全文

posted @ 2016-11-07 13:16 伏草惟存阅读(9827) 评论(0) 推荐(2)

【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理

摘要：摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。而Stanford NLP 是由斯坦福大学的 NLP 小组开源的 Java 实现的 NLP 工具包，同样对 NLP 领域的各个问题提供了解决办法。斯坦福大学的 NLP 小组是世界知名的研究小组，能将 NLTK 和 Stanford NLP 这两个工具包结合起来使用，那对于自然语言开发者是再好不过的！在 2004 年 Steve Bird 在 NLTK 中加上了对 Stanford NLP 工具包的支持，通过调用外部的 jar 文件来使用 Stanford NLP 工具包的功能。本分析显得非常方便好用。本文主要介绍NLTK（Natural language Toolkit）下配置安装Stanford NLP ，以及对St 阅读全文

posted @ 2016-11-06 22:00 伏草惟存阅读(39438) 评论(2) 推荐(5)

随笔分类 - NLP