随笔分类 -  自然语言处理

代码有效期 : 2017/4 --> ????/??/?? 在“挑战杯”的项目里面接触到自然语言处理,记录下过程的心得和问题,便于回查和交流。
摘要:[TOC] 对于一门语言来说,一句话有无限可能。问题是我们只能通过有限的程序来分析结构和含义。尝试将“语言”理解为:仅仅是所有合乎文法的句子的大集合。在这个思路的基础上,类似于 就成立,这种式子叫做递归产生式。理论上,句子可以无限扩充。 文法 自定义文法 写法上与上一篇博文的分类规则思路基本一致,并 阅读全文
posted @ 2017-06-20 17:13 AsuraDong 阅读(3430) 评论(5) 推荐(0)
摘要:[TOC] 如何构建一个系统,用于从非结构化的文本中提取结构化的信息和数据?哪些方法使用这类行为?哪些语料库适合这项工作?是否可以训练和评估模型? 信息提取,特别是结构化信息提取,可以类比数据库的记录。对应的关系绑定了对应的数据信息。针对自然语言这类非结构化的数据,为了获取对应关系,应该搜索实体对应 阅读全文
posted @ 2017-06-19 22:15 AsuraDong 阅读(9336) 评论(0) 推荐(0)
摘要:[TOC] 关于分类文本,有三个问题 1. 怎么识别出文本中用于明显分类的特征 2. 怎么构建自动分类文本的模型 3. 相关的语言知识 按照这个思路,博主进行了艰苦学习(手动捂脸。。) 一、监督式分类:建立在训练语料基础上的分类 训练过程中,特征提取器将输入转化为特征集,并且记录对应的正确分类。生成 阅读全文
posted @ 2017-06-15 21:58 AsuraDong 阅读(10153) 评论(0) 推荐(0)
摘要:[TOC] 词性标注器 之后的很多工作都需要标注完的词汇。nltk自带英文标注器 标注语料库 表示已经标注的标识符: 读取已经标注的语料库 nltk语料库ue肚脐提供了统一接口,可以不必理会不同的文件格式。格式: 。参数可以指定categories和fields 名词、动词、形容词等 这里以名词为例 阅读全文
posted @ 2017-06-13 00:05 AsuraDong 阅读(4593) 评论(0) 推荐(1)
摘要:自然语言处理中算法设计有两大部分:分而治之 和 转化 思想。一个是将大问题简化为小问题,另一个是将问题抽象化,向向已知转化。前者的例子:归并排序;后者的例子:判断相邻元素是否相同(与排序)。 这次总结的 自然语言中常用的一些基本算法 ,算是入个门了。 递归 使用递归速度上会受影响,但是便于理解算法深 阅读全文
posted @ 2017-06-12 21:33 AsuraDong 阅读(2034) 评论(1) 推荐(3)
摘要:主要总结一下简单的工具:条件频率分布、正则表达式、词干提取器和归并器。 条件分布频率 《自然语言学习》很多地方都用到了条件分布频率,nltk提供了两种常用的接口: 和 。后面很多都会用到这两种方法,特别是第二个。因为第二个更符合定义,会智能的找到条件。 然后根据绘图的库,可以做出来很漂亮的图形。 简 阅读全文
posted @ 2017-06-10 12:56 AsuraDong 阅读(4431) 评论(0) 推荐(0)
摘要:[TOC] 语料库基本函数表 | 示例 | 描述 | | | : | |fileids() | 语料库中的文件 | |fileids([categories]) | 对应分类中的语料库文件 | |categories()| 语料库的分类 | |categories([fileids]) | 文件对应 阅读全文
posted @ 2017-06-07 21:00 AsuraDong 阅读(4156) 评论(0) 推荐(0)
摘要:目录 [TOC] nltk资料下载 其中, 参数默认是all,可以在脚本里面加上 来进行下载 文本和词汇 首先,通过 引入需要的内置9本书 搜索文本 上下文: ,concordance是一致性的意思。即在Text对象中monstrous出现的上下文 相同上下文单词: ,查找哪些词还有相同的上下文 。 阅读全文
posted @ 2017-06-07 16:49 AsuraDong 阅读(4871) 评论(2) 推荐(1)
摘要:文本特征提取方法研究 引言:转载大神的文章(http://blog.csdn.net/tvetve/article/details/2292111),存一下用于日后查找 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息 阅读全文
posted @ 2017-06-03 13:48 AsuraDong 阅读(889) 评论(0) 推荐(0)
摘要:随意观看 "工具准备" "全角和半角字符" "网页字符实体" "Code实现" "之后..." 工具准备 python3.6 正则表达式(别的语言思路一样,容易借鉴) python正则表达式:flags的应用 这里主要介绍一下 里面的flags用法 | 标识符 | 作用| | | : | |re.I 阅读全文
posted @ 2017-06-02 23:17 AsuraDong 阅读(7463) 评论(1) 推荐(0)
摘要:英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词、Yaha分词、Jieba分词等)。但是从加载自定义字典、多线程、自动匹配新词等方面来看。 大jieba 确实是中文分词中的 战斗机 。 请随意观看表演 "安装" "分词" "自定义词典" "延迟加载" "关键词提取" "词性标注" "词 阅读全文
posted @ 2017-05-30 15:06 AsuraDong 阅读(5504) 评论(5) 推荐(2)
摘要:自然语言之情感分析(中文) 数据来源:香港金融新闻平台 处理工具:python3.5 处理结果:分析语言的积极/消极意义 领域:金融/炒股 请随意观看表演 "数据准备" "数据清洗" "情感分析" "报错处理" "成果展示" "遗留问题" No1.数据准备 准备工作主要是对字典进行处理,将其按照类型 阅读全文
posted @ 2017-05-27 12:24 AsuraDong 阅读(5698) 评论(0) 推荐(0)