随笔分类 - NLP
摘要:36.什么时候你应该在不同分布上做训练和测试 当你的猫app已经上传10000张图,你已经人工标记它们有没有猫,同时你有200000张互联网上下载的图,这时你要怎么划分训练开发测试集呢? 当你训练深度学习模型时,可能必须用到那200000张图,那么训练和测试集的分布就不同,这会怎样影响你的工作呢?
阅读全文
摘要:命名实体的标注有两种方式:1)BIOES 2)BIO 实体的类别可以自己根据需求改变,通常作为原始数据来说,标注为BIO的方式。自己写了一套标注方法,大家可以参考下 原文:1.txt Inspired by energy-fueled phenomena such as cortical cytos
阅读全文
摘要:在进行模型训练前,我们要将数据打乱,以获得更好的训练效果。可以使用sklearn.utils中的shuffle,获得打乱后的数据索引,最后,迭代生成打乱后的batch数据,一个写好的模块如下。 思路是:1.先shuffle 2.再迭代生成
阅读全文
摘要:tf.abs() 求tensor中数据的绝对值 tf.sign() 每一个数据都执行sigmod函数,得到对应的数值 tf.reduce_sum() 对不同维度数据求和。注意:1:求和每一行 0:求和每一列 tf.cast() 数值转换 演示: 输出:
阅读全文
摘要:官网API是这么说的 This operation outputs a Tensor that holds the new value of 'ref' after the value has been assigned. This makes it easier to chain operatio
阅读全文
摘要:cross_val_score(model_name, x_samples, y_labels, cv=k) 作用:验证某个模型在某个训练集上的稳定性,输出k个预测精度。 K折交叉验证(k-fold) 把初始训练样本分成k份,其中(k-1)份被用作训练集,剩下一份被用作评估集,这样一共可以对分类器做
阅读全文
摘要:当我们训练的词向量保存为txt时候,如果不是直接读取到内存,找对应词的向量,这样会非常耗时 方法1.用gensim读取成model的形式,从内存中获得数据 方法2.读取txt文件,用enumerate()将数据放到字典里面,后期查找的时候用这个字典,主要代码如下:
阅读全文
摘要:一、深度学习模型 1.CNN 2.LSTM 3.Attention 二、与传统机器学习模型的比较 1.SVM 2.LR 3.GBDT 4.XGBoost 5.RandomForest 6.LightGBM 三、文本特征选择 1.一般短文本的长度在200字符左右,需要更加精巧的模型来判别 2.对于网络
阅读全文
摘要:感谢原著,原文出处:https://www.cnblogs.com/wangyaning/p/7853879.html 1.绪论 过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,以及中文自然语言处理上,似乎没有太
阅读全文
摘要:做nlp的时候,如果用到tf-idf,sklearn中用CountVectorizer与TfidfTransformer两个类,下面对和两个类进行讲解 一、训练以及测试 CountVectorizer与TfidfTransformer在处理训练数据的时候都用fit_transform方法,在测试集用
阅读全文
摘要:训练模型利用gensim.models.Word2Vec(sentences)建立词向量模型该构造函数执行了三个步骤:建立一个空的模型对象,遍历一次语料库建立词典,第二次遍历语料库建立神经网络模型可以通过分别执行model=gensim.models.Word2Vec(),model.build_v
阅读全文
摘要:最近,使用python的logging模块,因为这个写入日志写完后就没有管它。在存储日志信息的时候,一直提示: UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte
阅读全文
摘要:# 前提是必须安装: python -m spacy download ennlp = spacy.load('en')text = u"you are best. it is lemmatize test for spacy. I love these books. amines (when pr
阅读全文
摘要:1 def word_vector_gener(): 2 """ 3 几种不同的方法来生成词向量 4 :return: 5 """ 6 from gensim.models import Word2Vec 7 from gensim.test.utils import common_texts 8 # 1.word2vec ...
阅读全文
摘要:常用语料资源 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte
阅读全文
摘要:fasttext是个好东西,是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec,fasttext可以解决out of vocabulary的问题。fasttext还能够用于有监督的文本分类。更赞的是,facebook提供了200多种语言的预训练模型和
阅读全文
摘要:软件简介 THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约
阅读全文
摘要:! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 .数 .日 / // 0 1 2 3 4 5 6 7 8 9 : :// :: ; >> ? @ A Lex [ ...
阅读全文
摘要:1)Numpy能够读写磁盘上的文本数据或二进制数据。将数组以二进制格式保存到磁盘np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中。 import numpy as npa=np.arange(5)np.save(
阅读全文
摘要:1 """ 2 1.在自然语言处理中常常使用预训练的word2vec,这个预训练的词向量可以使用google的GoogleNews-vectors-negative300.bin 3 2.GoogleNews-vectors-negative300.bin是训练好的300维的新闻语料词向量 4 3.本函数的作用就是把一个词转换成词向量,以供我们后期使用。没有在该w...
阅读全文
浙公网安备 33010602011771号