会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
小叶子666
知易行难 知行合一
博客园
首页
新随笔
联系
订阅
管理
2018年8月28日
特征工程之离散变量处理
摘要: 使用sklearn训练模型,只能输入数值型变量。因此需要对数据集中的非数值型离散变量进行处理,非数值型离散变量分为两类:有序型与无序型 一、有序型离散变量处理 什么叫有序型离散变量呢,比如说衣服尺码,M、L、XL;学历:小学、初中、高中、本科;这些都属于有序型变量。 在上图数据表格中,size及cl
阅读全文
posted @ 2018-08-28 23:45 小叶子666
阅读(4763)
评论(0)
推荐(0)
2018年8月27日
python 原生列表删除元素方法总结
摘要: 一、列表方法remove(),按值删除,删除首个符合的元素 二、列表方法pop(),按索引删除,默认删除最后一个元素 三、del函数,删除某个变量或者某些元素
阅读全文
posted @ 2018-08-27 23:04 小叶子666
阅读(351)
评论(0)
推荐(0)
2018年8月24日
sklearn进行归一化
摘要: 利用神经网络预测数据时,突然就被一个以前从来没想过的问题困扰了,训练集与测试集应该分别进行归一化还是合并为一个大的矩阵统一进行归一化?如果放在一起,测试集会参与到模型的训练当中,感觉不对。如果分开,怎么对测试集进行归一化呢? 咨询老师,得到了答案,记录如下: 用训练集归一化,并记录归一化需要用到的参
阅读全文
posted @ 2018-08-24 22:26 小叶子666
阅读(6217)
评论(0)
推荐(2)
2018年8月21日
Keras安装与测试遇到的坑
摘要: Keras是基于python的深度学习库 Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。 安装步骤及遇到的坑: (1)安装tensorflow:CMD命令行输入pip install --upgrade tensorfl
阅读全文
posted @ 2018-08-21 23:35 小叶子666
阅读(7532)
评论(1)
推荐(0)
常用机器学习算法优缺点及应用汇总
摘要: 一、K-Means聚类算法 优点: (1)原理简单,实现容易,收敛速度快 (2)球形边界效果较好 缺点: (1)k取值不好把握 (2)非球形边界效果较差 (3)对噪音和异常点较敏感 应用: (1)被大多数搜索引擎用于通过相似性对网页进行聚类,并识别搜索结果的相关率,有助于搜索引擎减少用户的计算时间
阅读全文
posted @ 2018-08-21 00:10 小叶子666
阅读(785)
评论(0)
推荐(0)
2018年8月16日
特征工程
摘要: 特征工程是将原始数据转变为模型的训练数据的过程,目的是为了获取更好的训练数据特征。特征工程在机器学习中占有非常重要的作用,也是数据分析工作中最消耗时间与精力的一部分工作。 特征工程主要包括特征的获取、特征处理、特征监控三大部分,其中特征处理为特征工程的核心。 一、特征获取 特征获取方案应包括特征如何
阅读全文
posted @ 2018-08-16 00:27 小叶子666
阅读(635)
评论(0)
推荐(0)
2018年8月15日
机器学习模型评估指标总结
摘要: 常用机器学习算法包括分类、回归、聚类等几大类型,以下针对不同模型总结其评估指标 一、分类模型 常见的分类模型包括:逻辑回归、决策树、朴素贝叶斯、SVM、神经网络等,模型评估指标包括以下几种: (1)二分类问题 (a)混淆矩阵 准确率A:预测正确个数占总数的比例 精准率P:正例样本中有多少被预测正确了
阅读全文
posted @ 2018-08-15 23:41 小叶子666
阅读(2072)
评论(0)
推荐(0)
2018年8月14日
pyecharts多图表同一页显示
摘要: 可视化是本人弱项,加强加强。。。。 颜控,喜欢pyecharts 今天跑回归时,需要直观的去看一下数据,奈何数据量太大,测试集有将近2万条数据,一张图无法完成的情况下,查了一下pyechart多图表显示问题 pyechart提供了一个接口Page,只需要调用方法add("待添加图表名")即可 以下为
阅读全文
posted @ 2018-08-14 21:08 小叶子666
阅读(4273)
评论(0)
推荐(1)
2018年8月13日
参数与超参数
摘要: 作为机器学习攻城狮(咳咳:调参员),参数和超参数是最最基础的常识。 1、参数(模型根据数据可以自动学习出的变量) 参数指的是模型内部的配置变量(configuration variable),可通过数据来估计其取值。 从数据中估计或学习得到 通常不被人为设定 常作为最终模型的一部分被保存 参数是机器
阅读全文
posted @ 2018-08-13 20:56 小叶子666
阅读(2584)
评论(0)
推荐(0)
2018年7月26日
从某一列中截取字符信息——extract()的使用
摘要: 爬虫获取某网站杭州到丽江的旅游信息,进行分析 (1)导入数据 df = pd.read_csv("travel.csv") (2)从路线信息中提取旅游天数、酒店等级、酒店评分、旅游价格等信息 df["天数"]=df.路线信息.str.extract('(\d+)天\d+晚').apply(lambd
阅读全文
posted @ 2018-07-26 23:18 小叶子666
阅读(1056)
评论(0)
推荐(0)
下一页
公告