随笔分类 -  机器学习--基于python

基于Machine Learning in Action这本书的学习笔记
摘要:1. 简介 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题 适用:数值型和标称型 一般流程: 1. 信息增益 熵:信息的期望值 n:分类的数目 p(xi):选择该分类的概率 python中实现 建立trees.py文件,创建cal 阅读全文
posted @ 2017-02-21 16:50 rockchen 阅读(764) 评论(0) 推荐(0)
摘要:1. 概念 测量不同特征值之间的距离来进行分类 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高。 适用范围:数值型和标称型 工作原理: 存在一个样本数据合计,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签 阅读全文
posted @ 2017-02-20 17:07 rockchen 阅读(2068) 评论(0) 推荐(0)