摘要:
第五章(分类变量) 1. 类型变量编码: 通常为非数字类型,需要进行转化。但是归属于1-k连续变量不合适,因为不同类之间没有这种连续关系。 1) One-Hot 编码: 每类占不同的bit位,所在位为1,其余位为0。sklearn.preprocessing.OneHotEncoder 2)Dumm 阅读全文
posted @ 2019-01-28 16:40
燕奋斗
阅读(310)
评论(0)
推荐(0)
摘要:
第三章(文本数据:展平、过滤和分块) 1. Bag-of-X: 将文本信息转化为向量 统计各个词出现次数,能够根据词频进行文本分类,也同样用于信息检索。 1)Bag-of-Words: 将文本转化为平面向量,词以及文本中出现次数。相当于将文本映射到一个n维空间。 但是,这种表示方式会破坏整体的意思, 阅读全文
posted @ 2019-01-28 16:39
燕奋斗
阅读(237)
评论(0)
推荐(0)
摘要:
前言 1. 特征处于数据与模型中间环节,特征工程是将数据转化为可传入到模型的格式;好的特征能够简化模型难度,提高模型质量。 2. 仅了解特征处理的工作机制以及用途是不够的 - 人们还必须理解为什么是这样设计的,与其他技术的关系以及每种方法的优缺点。 3. 本文没有讲述音频数据使用傅里叶分析,以及目前 阅读全文
posted @ 2019-01-28 16:38
燕奋斗
阅读(664)
评论(0)
推荐(0)

浙公网安备 33010602011771号