小叶子666

2018年8月28日

摘要：使用sklearn训练模型，只能输入数值型变量。因此需要对数据集中的非数值型离散变量进行处理，非数值型离散变量分为两类：有序型与无序型一、有序型离散变量处理什么叫有序型离散变量呢，比如说衣服尺码，M、L、XL；学历：小学、初中、高中、本科；这些都属于有序型变量。在上图数据表格中，size及cl 阅读全文

posted @ 2018-08-28 23:45 小叶子666 阅读(4813) 评论(0) 推荐(0)

2018年8月27日

python 原生列表删除元素方法总结

摘要：一、列表方法remove()，按值删除，删除首个符合的元素二、列表方法pop()，按索引删除，默认删除最后一个元素三、del函数，删除某个变量或者某些元素阅读全文

posted @ 2018-08-27 23:04 小叶子666 阅读(360) 评论(0) 推荐(0)

2018年8月24日

sklearn进行归一化

摘要：利用神经网络预测数据时，突然就被一个以前从来没想过的问题困扰了，训练集与测试集应该分别进行归一化还是合并为一个大的矩阵统一进行归一化？如果放在一起，测试集会参与到模型的训练当中，感觉不对。如果分开，怎么对测试集进行归一化呢？咨询老师，得到了答案，记录如下：用训练集归一化，并记录归一化需要用到的参阅读全文

posted @ 2018-08-24 22:26 小叶子666 阅读(6243) 评论(0) 推荐(2)

2018年8月21日

Keras安装与测试遇到的坑

摘要： Keras是基于python的深度学习库 Keras是一个高层神经网络API，Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。安装步骤及遇到的坑：（1）安装tensorflow：CMD命令行输入pip install --upgrade tensorfl 阅读全文

posted @ 2018-08-21 23:35 小叶子666 阅读(7543) 评论(1) 推荐(0)

常用机器学习算法优缺点及应用汇总

摘要：一、K-Means聚类算法优点：（1）原理简单，实现容易，收敛速度快（2）球形边界效果较好缺点：（1）k取值不好把握（2）非球形边界效果较差（3）对噪音和异常点较敏感应用：（1）被大多数搜索引擎用于通过相似性对网页进行聚类，并识别搜索结果的相关率，有助于搜索引擎减少用户的计算时间阅读全文

posted @ 2018-08-21 00:10 小叶子666 阅读(816) 评论(0) 推荐(0)

2018年8月16日

特征工程

摘要：特征工程是将原始数据转变为模型的训练数据的过程，目的是为了获取更好的训练数据特征。特征工程在机器学习中占有非常重要的作用，也是数据分析工作中最消耗时间与精力的一部分工作。特征工程主要包括特征的获取、特征处理、特征监控三大部分，其中特征处理为特征工程的核心。一、特征获取特征获取方案应包括特征如何阅读全文

posted @ 2018-08-16 00:27 小叶子666 阅读(646) 评论(0) 推荐(0)

2018年8月15日

机器学习模型评估指标总结

摘要：常用机器学习算法包括分类、回归、聚类等几大类型，以下针对不同模型总结其评估指标一、分类模型常见的分类模型包括：逻辑回归、决策树、朴素贝叶斯、SVM、神经网络等，模型评估指标包括以下几种：（1）二分类问题（a）混淆矩阵准确率A：预测正确个数占总数的比例精准率P：正例样本中有多少被预测正确了阅读全文

posted @ 2018-08-15 23:41 小叶子666 阅读(2129) 评论(0) 推荐(0)

2018年8月14日

pyecharts多图表同一页显示

摘要：可视化是本人弱项，加强加强。。。。颜控，喜欢pyecharts 今天跑回归时，需要直观的去看一下数据，奈何数据量太大，测试集有将近2万条数据，一张图无法完成的情况下，查了一下pyechart多图表显示问题 pyechart提供了一个接口Page，只需要调用方法add("待添加图表名")即可以下为阅读全文

posted @ 2018-08-14 21:08 小叶子666 阅读(4287) 评论(0) 推荐(1)

2018年8月13日

参数与超参数

摘要：作为机器学习攻城狮（咳咳：调参员），参数和超参数是最最基础的常识。 1、参数（模型根据数据可以自动学习出的变量）参数指的是模型内部的配置变量(configuration variable)，可通过数据来估计其取值。从数据中估计或学习得到通常不被人为设定常作为最终模型的一部分被保存参数是机器阅读全文

posted @ 2018-08-13 20:56 小叶子666 阅读(2596) 评论(0) 推荐(0)

2018年7月26日

从某一列中截取字符信息——extract（）的使用

摘要：爬虫获取某网站杭州到丽江的旅游信息，进行分析（1）导入数据 df = pd.read_csv("travel.csv") （2）从路线信息中提取旅游天数、酒店等级、酒店评分、旅游价格等信息 df["天数"]=df.路线信息.str.extract('(\d+)天\d+晚').apply(lambd 阅读全文

posted @ 2018-07-26 23:18 小叶子666 阅读(1068) 评论(0) 推荐(0)

知易行难知行合一

公告

小叶子666

知易行难 知行合一

公告

知易行难知行合一