摘要: 这里用文氏图(Venn diagram)来推导一下贝叶斯定理。 假设A和B为两个不相互独立的事件。 交集(intersection): 上图红色部分即为事件A和事件B的交集。 并集(union): 由Venn diagram可以看出,在事件B已经发生的情况下,事件A发生的概率为事件A和事件B的交集除 阅读全文
posted @ 2018-09-25 22:00 HuZihu 阅读(18969) 评论(1) 推荐(0)
摘要: 画词云首先需要安装wordcloud(生成词云)和jieba(中文分词)。 先来说说wordcloud的安装吧,真是一波三折。首先用pip install wordcloud出现错误,说需要安装Visual C++ 14.0。折腾半天安装好Visual C++后,还是不行,按网上指点,下载第三方包安 阅读全文
posted @ 2018-09-21 12:18 HuZihu 阅读(6691) 评论(0) 推荐(0)
摘要: 这里利用ben的项目(https://github.com/ben519/DataWrangling/blob/master/Python/README.md),在此基础上增添了一些内容,来演示数据清洗的主要工作。 以下是一份简单的交易数据,包括交易单号,交易日期,产品序号,交易数量,单价,总价。 阅读全文
posted @ 2018-09-18 17:24 HuZihu 阅读(1112) 评论(0) 推荐(0)
摘要: 假设有一段文本:"I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends." 那么怎么提取这段文本的特征呢? 一个简单的方法就是使用词袋模型(bag of words mode 阅读全文
posted @ 2018-09-05 22:47 HuZihu 阅读(6309) 评论(0) 推荐(2)
摘要: 朴素贝叶斯是一组简单快速的分类算法。下面来介绍一下它的原理。 在机器学习中,我们有时需要解决分类问题。也就是说,给定一个样本的特征值(feature1,feature2,...feauren),我们想知道该样本属于哪个分类标签(label1,label2,...labeln)。即:我们想要知道该样本 阅读全文
posted @ 2018-08-30 23:30 HuZihu 阅读(2028) 评论(0) 推荐(0)
摘要: 有时我们不仅需要查看单个变量的分布,同时也需要查看变量之间的联系,这时就需要用到联合分布图。 这里利用Jake Vanderplas所著的《Python数据科学手册》一书中的数据,学习画图。 数据地址:http://raw.githubusercontent.com/jakevdp/marathon 阅读全文
posted @ 2018-08-27 21:06 HuZihu 阅读(2159) 评论(0) 推荐(0)
摘要: 在机器学习中,经常要用scikit-learn里面的线性回归模型来对数据进行拟合,进而找到数据的规律,从而达到预测的目的。用图像展示数据及其拟合线可以非常直观地看出拟合线与数据的匹配程度,同时也可用于后续的解释和阐述工作。 这里利用Nathan Yau所著的《鲜活的数据:数据可视化指南》一书中的数据 阅读全文
posted @ 2018-08-26 21:20 HuZihu 阅读(2417) 评论(0) 推荐(0)
摘要: mplot3d是matplotlib里用于绘制3D图形的一个模块。关于mplot3d 绘图模块的介绍请见:https://blog.csdn.net/dahunihao/article/details/77833877。 莫比乌斯环(mobius strip)是一种只有一个曲面的拓扑结构。把一个纸条 阅读全文
posted @ 2018-08-25 22:32 HuZihu 阅读(3524) 评论(0) 推荐(0)
摘要: 误差线用于显示数据的不确定程度,误差一般使用标准差(Standard Deviation)或标准误差(Standard Error)。 标准差(SD):是方差的算术平方根。如果是总体标准差,那么用σ表示,如果是样本标准差,那么用s表示。标准差反映数据集的离散程度,标准差越小,就说明数据越集中在其平均 阅读全文
posted @ 2018-08-22 18:40 HuZihu 阅读(11958) 评论(0) 推荐(0)
摘要: 颜色(Colors): 基础颜色: 此外,matplotlib也支持HTML颜色,可参考:http://www.runoob.com/html/html-colorvalues.html。 (注:可直接上网搜索 ”HTML color names“) 也可用命令将其调出: 下面是官网列出的一些命名的 阅读全文
posted @ 2018-08-22 14:49 HuZihu 阅读(1097) 评论(0) 推荐(0)