likedata

[置顶] (长期更新)【python数据建模实战】零零散散问题及解决方案梳理

摘要：注1：本文旨在梳理汇总出我们在建模过程中遇到的零碎小问题及解决方案(即当作一份答疑文档)，会不定期更新，不断完善, 也欢迎大家提问，我会填写进来。注2：感谢阅读。为方便您查找想要问题的答案，可以就本页按快捷键Ctrl+F，搜索关键词查找，谢谢。 1. 读写csv文件时，存在新的一列，Unnamed 阅读全文

posted @ 2019-08-24 17:54 likedata 阅读(1258) 评论(0) 推荐(0)

2019年11月23日

python安装第三方库报错：Cannot uninstall '***'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.

摘要： pip install ignore installed ${PACKAGE_NAME} 阅读全文

posted @ 2019-11-23 23:56 likedata 阅读(405) 评论(0) 推荐(0)

可视化，matplotlib，seaborn，plotly，pyecharts等等

摘要： 1. 画频率直方图 import pandas as pd import matplotlib.pyplot as plt Series.value_counts().plot.bar() plt.show() value_counts()的参数说明如下： sort，是否把统计后的次数排序，默认是降阅读全文

posted @ 2019-11-23 10:55 likedata 阅读(1222) 评论(0) 推荐(0)

2019年8月27日

[转]集成学习-如何产生并结合”好而不同“的个体学习器

摘要： Hoeffding霍夫丁不等式在<<机器学习>>第八章"集成学习"部分, 考虑二分类问题y∈{−1,+1}y∈{−1,+1}y \in \{ 1, +1\} 和真实函数fff, 假定基分类器的错误率为ϵϵ\epsilon, 即对每个基分类器hihih_{i}有 P(hi(x 阅读全文

posted @ 2019-08-27 09:26 likedata 阅读(588) 评论(0) 推荐(0)

2019年8月24日

[机器学习理论] 降维算法PCA、SVD(部分内容，有待更新)

摘要：几个概念正交矩阵在矩阵论中，正交矩阵（orthogonal matrix）是一个方块矩阵，其元素为实数，而且行向量与列向量皆为正交的单位向量，使得该矩阵的转置矩阵为其逆矩阵: 其中，为单位矩阵。正交矩阵的行列式值必定为或，因为：对角矩阵对角矩阵（英语：diagonal matrix）是一个主阅读全文

posted @ 2019-08-24 18:12 likedata 阅读(315) 评论(0) 推荐(0)

[转]Hive总结篇

摘要： <! flowchart 箭头图标勿删概述 Hive学习也有一段时间了，今天来对Hive进行一个总结，谈谈自己的理解，作者还是个小白，有不对的地方请大家指出相互学习，共同进步。今天来谈一谈什么是Hive，产生背景，优势等一系列问题。什么是Hive 老规矩：官网地址 Hive wiki. 先来谈阅读全文

posted @ 2019-08-24 17:55 likedata 阅读(241) 评论(0) 推荐(0)

[转]卡方分箱中卡方值的计算

摘要：关于卡方分箱，网上有很多文章，但几乎没有文章介绍分箱时相邻区间卡方值计算的方法，而本文在介绍卡方分箱的同时，重点介绍了相邻区间卡方值的计算方法。通过本文，希望大家能对卡方分箱有清楚透彻的认识。分箱是什么分箱是将连续的变量离散化，将多状态的离散变量合并成少状态。这里要注意的是，不仅仅是连续变量要分阅读全文

posted @ 2019-08-24 17:53 likedata 阅读(2102) 评论(0) 推荐(0)

【机器学习理论】换底公式--以e，2，10为底的对数关系转化

摘要：我们在推导机器学习公式时，常常会用到各种各样的对数，但是奇怪的是--我们往往会忽略对数的底数是谁，不管是2，e，10等。原因在于，lnx，log2x，log10x，之间是存在常数倍关系。回顾学过的数学知识，换底公式如下: 则有故我们不用纠结对数公式中底数究竟是谁，常数倍关系往往对最后结果不产生阅读全文

posted @ 2019-08-24 17:52 likedata 阅读(3687) 评论(0) 推荐(0)

(长期更新)【机器学习实践】Pycharm编辑器的使用注意事项

摘要： 1. 写Python代码，根据PEP8风格，默认一行的长度不超过 80 个字符。但是pycharm 默认是第 120 个字符处，故进行修改： File→Settings→Editor→Code Style→Hard wrap at ___ columns的值设为80 2. Pycharm运行部分代阅读全文

posted @ 2019-08-24 17:51 likedata 阅读(747) 评论(0) 推荐(0)

2019年8月21日

[转][机器学习实践]jupyter notebook插入图片的几种方法

摘要：一、通过HTML方式插入本地图片使用 <img src> 语句插入本地图片，其中src为图片路径，可以是相对路径或绝对路径。 <img src="./jupyter_logo.png", width=320, heigth=240> 上述语句为插入当前目录下名为“jupy 阅读全文

posted @ 2019-08-21 12:26 likedata 阅读(2131) 评论(1) 推荐(0)

公告