随笔分类 - 机器学习
摘要:word tokenize NLTK nltk.word_tokenize substring,按标点字符和空格划分,但保留小数、分数一类 nltk.tokenize.RegexpTokenizer 正则可保留固定的一部分,如对一些金钱'$10'表示或者其他非空白序列 nltk.tokenize.s
阅读全文
摘要:记个笔记,进一步理解了模型融合,开心,整理一下模型融合方式:stacking、blending和voting 直接上代码(来自网络大佬的分享),理论后续补。 blending '''创建训练的数据集''' data, target = make_blobs(n_samples=50000, cent
阅读全文
摘要:记一下,懒得找了。 语料是NER的古文献语料,参考其他博客代码。 我先将标记的实体提出来,作为自定义字典,加入jieba中,然后再入停用词,再分词,最后训练词向量。效果还不知如何,后续再说。 #加载自定义词典 jieba.load_userdict("cidian.txt") #加载停用词 def
阅读全文
摘要:代码来自《机器学习实战》https://github.com/wzy6642/Machine-Learning-in-Action-Python3 K-近邻算法(KNN) 介绍 简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感,无数据输入假定。 缺点:计
阅读全文

浙公网安备 33010602011771号