随笔分类 -  数据挖掘及算法

摘要:一、词袋模型 维度=|词典|; 稀疏向量 假设词典里有7个单词【我们,去,爬山,今天,你们,昨天,运动】 每个单词的表示: 我们:[1,0,0,0,0,0,0] 爬山:[0,0,1,0,0,0,0] 运动:[0,0,1,0,0,0,1] 句子的表示: 我们今天去爬山:[1,1,1,1,0,0,0] 阅读全文
posted @ 2019-09-16 23:35 fionaplanet 阅读(345) 评论(0) 推荐(0) 编辑
摘要:一直觉得遗传算法高大上,然后都不明觉厉,决定还是要学习下这个优化算法。 遗传算法主要是模拟我们高中学的染色体变异、染色体交叉等过程,然后通过优胜劣汰获得最优解。 遗传算法中,一个基本单位为“个体”,一个种群(系统)中拥有好多个体。每个个体携带两个内容:染色体与适应度。以羊群举例 整个牧场 -> 一个 阅读全文
posted @ 2019-06-15 17:55 fionaplanet 阅读(919) 评论(0) 推荐(0) 编辑
摘要:#英文预处理 词共现矩阵的构建 https://github.com/urgedata/pythondata/blob/master/Text%20Analytics/ericbrown.ipynb #中文预处理 预处理(去特殊符号、去停用词、分词) 把词转成index(word to index) 阅读全文
posted @ 2018-10-26 11:53 fionaplanet 阅读(1544) 评论(0) 推荐(0) 编辑
摘要:在深度学习中,文本分类的主要原型:Text  label,坐边是输入端“X”,右边是输出端“Y”。行业baseline:用BoW(bag of words)表示sentences(如何将文本表达成一个数字的形式),然后用LR或者SVM做回归。中英文做自然语言处理主要区别,中文需要分词(启发式Heu 阅读全文
posted @ 2018-03-19 23:04 fionaplanet 阅读(471) 评论(0) 推荐(0) 编辑
摘要:判别式模型:拿到的是条件概率,在给定特征X情况下求Y得概率,找到最大的Y作为结果,不关注Y的分布。比如神经网络,你把X灌进去就能拿到结果。仅仅对输入抽取特征,即特征函数为f(x)。 产生式模型:是一种联合分布,用联合分布生成样本,比如HMM,BNS,MRF,对输入输出同时抽取特征,即特征函数为f(x 阅读全文
posted @ 2018-01-25 16:45 fionaplanet 阅读(288) 评论(0) 推荐(0) 编辑
摘要:一、极大似然已经发生的事件是独立重复事件,符合同一分布已经发生的时间是可能性(似然)的事件利用这两个假设,已经发生时间的联合密度值就最大,所以就可以求出总体分布f中参数θ 用极大似然进行机器学习有监督学习:最大熵模型无监督学习:GMM 二、熵和信息自信息i(x) = -log(p(x)) 信息是对不 阅读全文
posted @ 2018-01-21 15:30 fionaplanet 阅读(949) 评论(0) 推荐(0) 编辑
摘要:一、基础知识 计算机没有人类的先验知识,如何理解文字,如何让实现文本分类,必须找到一套方法或方式对这些我们人类造成的词去表达和表式。一是从大量的预料中,拿到一些可以对它的含义表达的一些表达方式,二是文本是标记性的语言没办法去做机器学习,转成计算机可以理解的数值型的向量。 词编码 > N-gram, 阅读全文
posted @ 2018-01-11 14:23 fionaplanet 阅读(903) 评论(0) 推荐(0) 编辑
摘要:一、马尔科夫链 1.马尔科夫链:指数学中具有马尔可夫性质的离散时间随机过程。即给定当前知识或信息的情况下,过去对于未来预测无关,的这样一种前后关系。 2.马尔科夫性质:初始状态确定的情况下,给定不变的状态转移矩阵,n次循环之后最终会达到稳态的分布。下面例子中,达到稳态后,在很久的未来,每一天的天气都 阅读全文
posted @ 2018-01-08 14:48 fionaplanet 阅读(1534) 评论(0) 推荐(0) 编辑
摘要:最近时间都忙于参加阿里天池的全国社会保险大数据应用创新大赛,终于结束,最终全国排名第7,总共是1336只队伍参加,还是很激动进了前10,今天想把一些体悟写一下,希望对后来参加的人有用。这个比赛是完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,根据给出的数据情况,最开始有两个 阅读全文
posted @ 2017-09-20 10:52 fionaplanet 阅读(6926) 评论(45) 推荐(0) 编辑
摘要:以下为Aron老师课程笔记 一、NLTK安装 1. 安装nltk https://pypi.python.org/pypi/nltk 把nltk-3.0.0解压到D:\Anacond3目录 打开cmd,进到D:\Anaconda3\nltk-3.2.4\nltk-3.2.4目录 输入命令:pytho 阅读全文
posted @ 2017-08-22 13:15 fionaplanet 阅读(1477) 评论(0) 推荐(1) 编辑
摘要:在利用gridseachcv进行调参时,其中关于scoring可以填的参数在SKlearn中没有写清楚,就自己找了下,具体如下: parameters = {'eps':[0.3,0.4,0.5,0.6], 'min_samples':[20,30,40]}db = DBSCAN(metric='c 阅读全文
posted @ 2017-07-06 11:02 fionaplanet 阅读(1543) 评论(0) 推荐(0) 编辑
摘要:之前一直接触的都是频繁模式挖掘比如Aprior或者FP-GROWTH,偶然需要用到时间序列的频繁模式挖掘,也就是事件的发生不再是无序的,而是有序的发生,看到两篇博客写的很清楚: http://www.cnblogs.com/pinard/p/6323182.html http://www.cnblo 阅读全文
posted @ 2017-06-14 10:16 fionaplanet 阅读(3793) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2017-01-08 19:02 fionaplanet 编辑
摘要:一、推荐系统概念简介 推荐系统的本质是信息过滤,解决信息过载问题,将用户与物品联系起来。其实推荐系统很好的好处是发现长尾,大家可以看看长尾理论这本书~ 与搜索引擎不同,不需要用户提供明确需求,而是通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足给他们兴趣和需求信息。 个性化推荐系统 阅读全文
posted @ 2016-12-25 13:52 fionaplanet 阅读(832) 评论(0) 推荐(0) 编辑
摘要:1.安装graphviz。下载地址在:http://www.graphviz.org/。如果你是linux,可以用apt-get或者yum的方法安装。如果是windows,就在官网下载msi文件安装。无论是linux还是windows,装完后都要设置环境变量,将graphviz的bin目录加到PAT 阅读全文
posted @ 2016-12-21 10:50 fionaplanet 阅读(12358) 评论(2) 推荐(1) 编辑
摘要:一、一些概念 互信息: 两个随机变量x和Y的互信息,定义X, Y的联合分布和独立分布乘积的相对熵。 贝叶斯公式: 贝叶斯带来的思考: 给定某些样本D,在这些样本中计算某结论出现的概率,即 给定样本D 所以可以推出,再假定p(Ai)相等,可以推出,这个就是最大似然估计做的事情,看下取哪个参数的时候,D 阅读全文
posted @ 2016-12-18 15:26 fionaplanet 阅读(1673) 评论(0) 推荐(0) 编辑
摘要:特征工程 一、特征处理 1. 正负样本不均衡问题 a) Oversampleing b) 修改损失函数 c) 取n份正样本 与 负样本 分别构建分类器,然后vote 2. 数值特征处理 a) 归一化 b) Log变换 c) 统计max min mean std d) 离散化 e) HASH分桶 f) 阅读全文
posted @ 2016-12-11 10:45 fionaplanet 阅读(1876) 评论(0) 推荐(0) 编辑
摘要:关联规则:评定规则的标准 支持度:规则前项LHS和规则后项RHS所包括的商品都同时出现的概率,LHS和RHS商品的交易次数/总交易次数。 置信度:在所有的购买了左边商品的交易中,同时又购买了右边商品的交易机率,包含规则两边商品的交易次数/包括规则左边商品的交易次数。 提升度(有这个规则和没有这个规则 阅读全文
posted @ 2016-12-04 19:09 fionaplanet 阅读(14193) 评论(0) 推荐(0) 编辑
摘要:为什么除了人工神经网络,又冒出来卷积神经网络、循环神经网络等等,因为之前人工神经网络的框架,对于高纬度的图像等数据需要求的W太多。卷积神经网络,可以参数共享(指的是各神经元有自己的固定参数),保持了层级网络结构,不同层次有不同形式(运算)与功能(而人工神经网络都是全连接)。三个关键点:local c 阅读全文
posted @ 2016-11-29 23:08 fionaplanet 阅读(748) 评论(0) 推荐(0) 编辑
摘要:一直对于各种分类器评估的指标有点晕,今天决定琢磨下,并且写下来,方便以后回忆。 一、混淆矩阵 来源于信息论,根据上面的混淆矩阵,有3个指标需要搞清楚,我觉得记公式真的很容易搞混,建议大家都直接记文字加上自己理解就好了。 准确率=正确预测正负的个数/总个数(这个指标在python中的交叉验证时可以求准 阅读全文
posted @ 2016-10-06 17:49 fionaplanet 阅读(5259) 评论(0) 推荐(0) 编辑