随笔分类 -  数据挖崛算法

摘要:Python数据可视化之Wordcloud: 先来看一下效果:基于jieba+wordcloud: 安装: ps: 可能会安装失败,因为缺少c++编译,办法的话,可以安装c++编译,或者去python包的社区进行下载安装 快速生成词云 word cloud 参数 阅读全文
posted @ 2019-03-11 12:36 Sgoyi 阅读(386) 评论(0) 推荐(0)
摘要:AHP(层次分析法) 层次分析法(The analytic hierarchy process)简称AHP,在20世纪70年代中期由美国运筹学家托马斯·塞蒂(TLsaaty)正式提出。它是一种定性和定量相结合的、系统化、层次化的分析方法。由于它在处理复杂的决策问题上的实用性和有效性,很快在世界范围得 阅读全文
posted @ 2018-11-16 10:13 Sgoyi 阅读(39104) 评论(6) 推荐(9)
摘要:几种归一化方法(Normalization Method)python实现 1、(0,1)标准化: 这是最简单也是最容易想到的方法,通过遍历feature vector里的每一个数据,将Max和Min的记录下来,并通过Max-Min作为基数(即Min=0,Max=1)进行数据的归一化处理: Pyth 阅读全文
posted @ 2018-10-26 16:42 Sgoyi 阅读(59088) 评论(0) 推荐(2)
摘要:转载之:https://zhuanlan.zhihu.com/p/31345125 示例一:二硬币模型 假设现在有两个硬币A和B,我们想要知道两枚硬币各自为正面的概率啊即模型的参数。我们先随机从A,B中选一枚硬币,然后扔10次并记录下相应的结果,H代表正面T代表反面。对以上的步骤重复进行5次。如果在 阅读全文
posted @ 2018-10-26 15:57 Sgoyi 阅读(753) 评论(0) 推荐(0)
摘要:最大期望算法(Expectation-maximization algorithm,又译期望最大化算法): 在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。(EM算法只需要有一些训练数据,定义一个最大化函数,剩下的就交给计算机了。经过若干次迭代,我们需要的模型就训练好了 阅读全文
posted @ 2018-10-26 15:16 Sgoyi 阅读(333) 评论(0) 推荐(0)
摘要:贝叶斯定理(英语:Bayes' theorem) 是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解释中,贝叶斯定理(贝叶斯公式)能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯·贝叶斯。 通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A( 阅读全文
posted @ 2018-10-25 17:02 Sgoyi 阅读(409) 评论(0) 推荐(0)
摘要:scikit-learn包下有计算TF-IDF的api,其效果也很不错。首先得安装Scikit-clearn Scikit-learn 依赖: Python (>= 2.7 or >= 3.4), NumPy (>= 1.8.2), SciPy (>= 0.13.3). 计算TF-IDF sciki 阅读全文
posted @ 2018-10-24 17:08 Sgoyi 阅读(2012) 评论(0) 推荐(0)
摘要:简单的python实现 对于安装报错,c++编译错误问题:可以安装 Microsoft Visual C++ Build Tools() 例子转载(https://www.cnblogs.com/naive/p/5815433.html) 运行结果 从输出结果可以发现,存在不少误报样本,但是并不存在 阅读全文
posted @ 2018-10-24 11:21 Sgoyi 阅读(3136) 评论(0) 推荐(0)
摘要:布隆过滤器(英语:Bloom Filter) 是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难,常见的补救办法是在建立一个小的白名单,存储那 阅读全文
posted @ 2018-10-24 10:21 Sgoyi 阅读(269) 评论(0) 推荐(0)
摘要:TF-IDF介绍(详见):https://www.cnblogs.com/yhll/p/9831267.html 例子: 假设有一篇文章包含了10000个词组,其中“中国”、“石油”、出现100次,“开采”出现200次,“的”出现500次(假设没有去除停用词) 语料库中共有1000篇文档,其中包含“ 阅读全文
posted @ 2018-10-22 18:20 Sgoyi 阅读(280) 评论(0) 推荐(0)
摘要:什么是TF-IDF[维基百科] TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重 阅读全文
posted @ 2018-10-22 17:19 Sgoyi 阅读(640) 评论(0) 推荐(0)