摘要: 第五章(分类变量) 1. 类型变量编码: 通常为非数字类型,需要进行转化。但是归属于1-k连续变量不合适,因为不同类之间没有这种连续关系。 1) One-Hot 编码: 每类占不同的bit位,所在位为1,其余位为0。sklearn.preprocessing.OneHotEncoder 2)Dumm 阅读全文
posted @ 2019-01-28 16:40 燕奋斗 阅读(310) 评论(0) 推荐(0)
摘要: 第三章(文本数据:展平、过滤和分块) 1. Bag-of-X: 将文本信息转化为向量 统计各个词出现次数,能够根据词频进行文本分类,也同样用于信息检索。 1)Bag-of-Words: 将文本转化为平面向量,词以及文本中出现次数。相当于将文本映射到一个n维空间。 但是,这种表示方式会破坏整体的意思, 阅读全文
posted @ 2019-01-28 16:39 燕奋斗 阅读(237) 评论(0) 推荐(0)
摘要: 前言 1. 特征处于数据与模型中间环节,特征工程是将数据转化为可传入到模型的格式;好的特征能够简化模型难度,提高模型质量。 2. 仅了解特征处理的工作机制以及用途是不够的 - 人们还必须理解为什么是这样设计的,与其他技术的关系以及每种方法的优缺点。 3. 本文没有讲述音频数据使用傅里叶分析,以及目前 阅读全文
posted @ 2019-01-28 16:38 燕奋斗 阅读(664) 评论(0) 推荐(0)