摘要: 转载自: http://blog.sina.com.cn/s/blog_6622f5c30101datu.html https://www.cnblogs.com/june0507/p/7601001.html 0x01 TF-IDF的误区 TF-IDF可以有效评估一字词对于一个文件集或一个语料库中 阅读全文
posted @ 2017-09-27 11:49 算法技术前沿 阅读(13537) 评论(2) 推荐(1) 编辑
摘要: 简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 阅读全文
posted @ 2017-09-27 11:47 算法技术前沿 阅读(987) 评论(0) 推荐(0) 编辑
摘要:   通常我们在读取文件的时候,会用到read(), readline(), readlines()。 通常可能会有这样的用法:     [python] view plain copy   def test1(): &n 阅读全文
posted @ 2017-09-27 11:45 算法技术前沿 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 1、显式等待 一个显式等待是你定义的一段代码,用于等待某个条件发生然后再继续执行后续代码。 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.suppo 阅读全文
posted @ 2017-09-27 11:43 算法技术前沿 阅读(150) 评论(0) 推荐(0) 编辑
摘要: SVM是一个二分类器,当遇到多类别的时候,一般采取如下两种策略。 a.一对多法(one-versus-rest,简称1-v-r SVMs)。训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样k个类别的样本就构造出了k个SVM。分类时将未知样本分类为具有最大分类函数值的那类。 b.一对 阅读全文
posted @ 2017-09-27 11:42 算法技术前沿 阅读(2401) 评论(0) 推荐(0) 编辑
摘要: 原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49429629,http://blog.csdn.net/ztf312/article/details/50894115 防止过拟合的处理方法 过拟合 我们都知道,在进行数 阅读全文
posted @ 2017-09-27 11:39 算法技术前沿 阅读(8519) 评论(0) 推荐(0) 编辑
摘要: 下面是一些定义及作用:Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.训练集是用来学习的样本集,通过匹配一些参数来建 阅读全文
posted @ 2017-09-27 11:37 算法技术前沿 阅读(2834) 评论(0) 推荐(0) 编辑