A_Present

2018年10月5日

摘要：一、两种分词标准： 1. 粗粒度。将词作为最小基本单位。比如：浙江大学。主要用于自然语言处理的各种应用。 2. 细粒度。不仅对词汇继续切分，也对词汇内部的语素进行切分。比如：浙江/大学。主要用于搜索引擎。一种常用方案是：索引的时候使用细粒度的分词以保证召回，比如浙江/大学询的时候使用粗粒阅读全文

posted @ 2018-10-05 16:56 A_Present 阅读(768) 评论(0) 推荐(0) 编辑

2018年10月4日

Ubuntu安装使用pyltp和StanfordCoreNLP

摘要：环境：Ubuntu 16.04+anaconda3 一、pyltp 1. 安装直接用pip安装：然后下载语言模型库，网址：https://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%2F 这里我下载的是阅读全文

posted @ 2018-10-04 20:15 A_Present 阅读(2250) 评论(1) 推荐(0) 编辑

2018年9月15日

【Python机器学习及实践】笔记

摘要：阅读全文

posted @ 2018-09-15 22:29 A_Present 阅读(120) 评论(0) 推荐(0) 编辑

2018年8月16日

【NLP_Stanford课堂】情感分析

摘要：一、简介实例：电影评论、产品评论是positive还是negative 公众、消费者的信心是否在增加公众对于候选人、社会事件等的倾向预测股票市场的涨跌 Affective States又分为： emotion：短暂的情感，比如生气、伤心、joyful开心、害怕、羞愧、骄傲等 mood：漫无原阅读全文

posted @ 2018-08-16 21:00 A_Present 阅读(624) 评论(0) 推荐(0) 编辑

2018年8月14日

【NLP_Stanford课堂】文本分类2

摘要：一、实验评估参数实验数据本身可以分为是否属于某一个类（即correct和not correct），表示本身是否属于某一类别上，这是客观事实；又可以按照我们系统的输出是否属于某一个类（即selected和not selected），表示是否分到某一类别，这是实验输出。以垃圾邮件为例： tp：表示系阅读全文

posted @ 2018-08-14 18:40 A_Present 阅读(423) 评论(0) 推荐(0) 编辑

2018年8月13日

【NLP_Stanford课堂】文本分类1

摘要：文本分类实例：分辨垃圾邮件、文章作者识别、作者性别识别、电影评论情感识别（积极或消极）、文章主题识别及任何可分类的任务。一、文本分类问题定义：输入：一个文本d 一个固定的类别集合C={c1,c2,...,cj}，一共j个类别输出：一个d的预测类别c∈C 方法：最简单的是使用基于词或其他特征阅读全文

posted @ 2018-08-13 17:37 A_Present 阅读(818) 评论(0) 推荐(0) 编辑

2018年8月12日

【NLP_Stanford课堂】拼写校正

摘要：在多种应用比如word中都有拼写检查和校正功能，具体步骤分为：自动校正：hte -> the 建议一个校正建议多个校正拼写错误类型：检测方法：认为任一不在字典中的词都是一个非词错误，因此字典本身越大越好校正方法：为错误词产生一个候选，其是跟错误词相似的真词，然后选择加权编辑距离最短或者信道阅读全文

posted @ 2018-08-12 19:39 A_Present 阅读(1392) 评论(0) 推荐(0) 编辑

2018年8月11日

【NLP_Stanford课堂】语言模型4

摘要：平滑方法： 1. Add-1 smoothing 2. Add-k smoothing 设m=1/V，则有从而每一项可以跟词汇表的大小相关 3. Unigram prior smoothing 将上式中的1/v换成unigram概率P(wi)，则有：其是插值的一种变体，其将某种unigram概率阅读全文

posted @ 2018-08-11 17:02 A_Present 阅读(1124) 评论(0) 推荐(0) 编辑

2018年8月7日

【NLP_Stanford课堂】语言模型3

摘要：一、产生句子方法：Shannon Visualization Method 过程：根据概率，每次随机选择一个bigram，从而来产生一个句子比如: 从句子开始标志的bigram开始，我们先有一个(<s>, w)，w是随机一个单词，比较有可能的是I这个单词，那么我们就有(<s>, I) 随机选择下阅读全文

posted @ 2018-08-07 20:16 A_Present 阅读(967) 评论(0) 推荐(0) 编辑

【NLP_Stanford课堂】语言模型2

摘要：一、如何评价语言模型的好坏标准：比起语法不通的、不太可能出现的句子，是否为“真实”或"比较可能出现的”句子分配更高的概率过程：先在训练数据集上训练模型的参数，然后在测试数据集上测试模型的效果。要求：测试数据集与训练数据集完全不同评价指标：用以评价模型的测试数据集上的效果二、N-gram 模阅读全文

posted @ 2018-08-07 19:23 A_Present 阅读(330) 评论(0) 推荐(0) 编辑

公告