机器学习 - 随笔分类 - ho_ho

英文分词对比nltk vs spacy

摘要：word tokenize NLTK nltk.word_tokenize substring，按标点字符和空格划分，但保留小数、分数一类 nltk.tokenize.RegexpTokenizer 正则可保留固定的一部分，如对一些金钱'$10'表示或者其他非空白序列 nltk.tokenize.s 阅读全文

posted @ 2021-08-16 16:04 ho_ho 阅读(1490) 评论(0) 推荐(0)

模型融合

摘要：记个笔记，进一步理解了模型融合，开心，整理一下模型融合方式：stacking、blending和voting 直接上代码（来自网络大佬的分享），理论后续补。 blending '''创建训练的数据集''' data, target = make_blobs(n_samples=50000, cent 阅读全文

posted @ 2021-05-25 14:03 ho_ho 阅读(206) 评论(0) 推荐(0)

gesim_word2vec训练词向量

摘要：记一下，懒得找了。语料是NER的古文献语料，参考其他博客代码。我先将标记的实体提出来，作为自定义字典，加入jieba中，然后再入停用词，再分词，最后训练词向量。效果还不知如何，后续再说。 #加载自定义词典 jieba.load_userdict("cidian.txt") #加载停用词 def 阅读全文

posted @ 2020-07-16 01:22 ho_ho 阅读(412) 评论(0) 推荐(0)

《机器学习实战》--KNN

摘要：代码来自《机器学习实战》https://github.com/wzy6642/Machine-Learning-in-Action-Python3 K-近邻算法(KNN) 介绍简单地说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。优点：精度高、对异常值不敏感，无数据输入假定。缺点：计阅读全文

posted @ 2019-12-11 22:33 ho_ho 阅读(612) 评论(0) 推荐(0)

hoho

是遗憾才难忘

随笔分类 - 机器学习

公告