机器学习(自学)第一天
1.决策树:
优点: 直观,便于理解,小规模数据集有效
缺点: 处理连续变量不好类别较多时,错误增加的比较快,可规模性一般
2.决策树的应用:
python的机器学习的库:scikit-learn
特性:
- 简单高效的数据挖掘和机器学习分析
- 对所有用户开放,根据不同需求高度可重用性
- 基于Numpy, SciPy和matplotlib
- 开源,商用级别:获得 BSD许可
使用scikit-learn
安装scikit-learn: pip, easy_install, windows installer
安装必要package:numpy, SciPy和matplotlib, 可使用Anaconda (包含numpy, scipy等科学计算常用package)
安装注意问题:Python解释器版本(2.7 or 3.4?), 32-bit or 64-bit系统
Tips:
- 把pycharm的中文包放进bin文件夹之后,不需要删除英文包(删除了会报错),重新pycharm即是中文界面。
- 安装Anaconda以及在pycharm中的配置方法:https://www.cnblogs.com/yuxuefeng/articles/9235431.html,https://blog.csdn.net/aanndd77/article/details/80830468
- Graphviz配置环境变量解决方案和下载地址:https://blog.csdn.net/qq_42685012/article/details/82850952
在决策树应用的视频中,使用代码出现了报错:AttributeError: '_csv.reader' object has no attribute'next'
解决办法:reader.next()改为next(reader),貌似和python运行版本有关。
之后又会报错,解决办法:“rb”改为“rt”即可。(原文地址:https://blog.csdn.net/li_haiyu/article/details/78364047)