数据挖掘及算法 - 随笔分类 - fionaplanet

文本相关杂七杂八

摘要：一、词袋模型维度=|词典|；稀疏向量假设词典里有7个单词【我们，去，爬山，今天，你们，昨天，运动】每个单词的表示：我们：[1,0,0,0,0,0,0] 爬山：[0,0,1,0,0,0,0] 运动：[0,0,1,0,0,0,1] 句子的表示：我们今天去爬山：[1,1,1,1,0,0,0] 阅读全文

posted @ 2019-09-16 23:35 fionaplanet 阅读(377) 评论(0) 推荐(0)

遗传算法

摘要：一直觉得遗传算法高大上，然后都不明觉厉，决定还是要学习下这个优化算法。遗传算法主要是模拟我们高中学的染色体变异、染色体交叉等过程，然后通过优胜劣汰获得最优解。遗传算法中，一个基本单位为“个体”，一个种群（系统）中拥有好多个体。每个个体携带两个内容：染色体与适应度。以羊群举例整个牧场 -> 一个阅读全文

posted @ 2019-06-15 17:55 fionaplanet 阅读(974) 评论(0) 推荐(0)

自然语言预处理

摘要：#英文预处理词共现矩阵的构建 https://github.com/urgedata/pythondata/blob/master/Text%20Analytics/ericbrown.ipynb #中文预处理预处理（去特殊符号、去停用词、分词）把词转成index（word to index）阅读全文

posted @ 2018-10-26 11:53 fionaplanet 阅读(1571) 评论(0) 推荐(0)

深度学习与NLP简单应用

摘要：在深度学习中，文本分类的主要原型：Text  label，坐边是输入端“X”，右边是输出端“Y”。行业baseline：用BoW（bag of words）表示sentences（如何将文本表达成一个数字的形式），然后用LR或者SVM做回归。中英文做自然语言处理主要区别，中文需要分词（启发式Heu 阅读全文

posted @ 2018-03-19 23:04 fionaplanet 阅读(488) 评论(0) 推荐(0)

条件随机场

摘要：判别式模型：拿到的是条件概率，在给定特征X情况下求Y得概率，找到最大的Y作为结果，不关注Y的分布。比如神经网络，你把X灌进去就能拿到结果。仅仅对输入抽取特征，即特征函数为f(x)。产生式模型：是一种联合分布，用联合分布生成样本，比如HMM,BNS,MRF，对输入输出同时抽取特征，即特征函数为f(x 阅读全文

posted @ 2018-01-25 16:45 fionaplanet 阅读(305) 评论(0) 推荐(0)

最大熵模型和EM算法

摘要：一、极大似然已经发生的事件是独立重复事件，符合同一分布已经发生的时间是可能性（似然）的事件利用这两个假设，已经发生时间的联合密度值就最大，所以就可以求出总体分布f中参数θ 用极大似然进行机器学习有监督学习：最大熵模型无监督学习：GMM 二、熵和信息自信息i(x) = -log(p(x)) 信息是对不阅读全文

posted @ 2018-01-21 15:30 fionaplanet 阅读(1060) 评论(0) 推荐(0)

词向量与相关应用

摘要：一、基础知识计算机没有人类的先验知识，如何理解文字，如何让实现文本分类，必须找到一套方法或方式对这些我们人类造成的词去表达和表式。一是从大量的预料中，拿到一些可以对它的含义表达的一些表达方式，二是文本是标记性的语言没办法去做机器学习，转成计算机可以理解的数值型的向量。词编码 > N-gram, 阅读全文

posted @ 2018-01-11 14:23 fionaplanet 阅读(962) 评论(0) 推荐(0)

隐马尔科夫

摘要：一、马尔科夫链 1.马尔科夫链：指数学中具有马尔可夫性质的离散时间随机过程。即给定当前知识或信息的情况下，过去对于未来预测无关，的这样一种前后关系。 2.马尔科夫性质：初始状态确定的情况下，给定不变的状态转移矩阵，n次循环之后最终会达到稳态的分布。下面例子中，达到稳态后，在很久的未来，每一天的天气都阅读全文

posted @ 2018-01-08 14:48 fionaplanet 阅读(1588) 评论(0) 推荐(0)

阿里天池全国社保比赛心得

摘要：最近时间都忙于参加阿里天池的全国社会保险大数据应用创新大赛，终于结束，最终全国排名第7，总共是1336只队伍参加，还是很激动进了前10，今天想把一些体悟写一下，希望对后来参加的人有用。这个比赛是完成数据算法模型的开发设计，实现对各类医疗保险基金欺诈违规行为的准确识别，根据给出的数据情况，最开始有两个阅读全文

posted @ 2017-09-20 10:52 fionaplanet 阅读(7177) 评论(46) 推荐(0)

NLTK1及NLP理论基础

摘要：以下为Aron老师课程笔记一、NLTK安装 1. 安装nltk https://pypi.python.org/pypi/nltk 把nltk-3.0.0解压到D:\Anacond3目录打开cmd，进到D:\Anaconda3\nltk-3.2.4\nltk-3.2.4目录输入命令：pytho 阅读全文

posted @ 2017-08-22 13:15 fionaplanet 阅读(1540) 评论(0) 推荐(1)

调参

摘要：在利用gridseachcv进行调参时，其中关于scoring可以填的参数在SKlearn中没有写清楚，就自己找了下，具体如下： parameters = {'eps':[0.3,0.4,0.5,0.6], 'min_samples':[20,30,40]}db = DBSCAN(metric='c 阅读全文

posted @ 2017-07-06 11:02 fionaplanet 阅读(1594) 评论(0) 推荐(0)

序列频繁模式挖掘

摘要：之前一直接触的都是频繁模式挖掘比如Aprior或者FP-GROWTH，偶然需要用到时间序列的频繁模式挖掘，也就是事件的发生不再是无序的，而是有序的发生，看到两篇博客写的很清楚： http://www.cnblogs.com/pinard/p/6323182.html http://www.cnblo 阅读全文

posted @ 2017-06-14 10:16 fionaplanet 阅读(4002) 评论(0) 推荐(0)

SNA社交网络算法

只有注册用户登录后才能阅读该文。

posted @ 2017-01-08 19:02 fionaplanet

推荐系统

摘要：一、推荐系统概念简介推荐系统的本质是信息过滤，解决信息过载问题，将用户与物品联系起来。其实推荐系统很好的好处是发现长尾，大家可以看看长尾理论这本书~ 与搜索引擎不同，不需要用户提供明确需求，而是通过分析用户的历史行为给用户的兴趣建模，从而主动给用户推荐能够满足给他们兴趣和需求信息。个性化推荐系统阅读全文

posted @ 2016-12-25 13:52 fionaplanet 阅读(915) 评论(0) 推荐(0)

python画决策树

摘要：1.安装graphviz。下载地址在：http://www.graphviz.org/。如果你是linux，可以用apt-get或者yum的方法安装。如果是windows，就在官网下载msi文件安装。无论是linux还是windows，装完后都要设置环境变量，将graphviz的bin目录加到PAT 阅读全文

posted @ 2016-12-21 10:50 fionaplanet 阅读(12421) 评论(2) 推荐(1)

贝叶斯网络与LDA

摘要：一、一些概念互信息：两个随机变量x和Y的互信息，定义X, Y的联合分布和独立分布乘积的相对熵。贝叶斯公式：贝叶斯带来的思考：给定某些样本D，在这些样本中计算某结论出现的概率，即给定样本D 所以可以推出，再假定p(Ai)相等，可以推出，这个就是最大似然估计做的事情，看下取哪个参数的时候，D 阅读全文

posted @ 2016-12-18 15:26 fionaplanet 阅读(1813) 评论(0) 推荐(0)

特征处理

摘要：特征工程一、特征处理 1. 正负样本不均衡问题 a) Oversampleing b) 修改损失函数 c) 取n份正样本与负样本分别构建分类器，然后vote 2．数值特征处理 a) 归一化 b) Log变换 c) 统计max min mean std d) 离散化 e) HASH分桶 f) 阅读全文

posted @ 2016-12-11 10:45 fionaplanet 阅读(1919) 评论(0) 推荐(0)

关联规则

摘要：关联规则：评定规则的标准支持度：规则前项LHS和规则后项RHS所包括的商品都同时出现的概率，LHS和RHS商品的交易次数/总交易次数。置信度：在所有的购买了左边商品的交易中，同时又购买了右边商品的交易机率，包含规则两边商品的交易次数/包括规则左边商品的交易次数。提升度（有这个规则和没有这个规则阅读全文

posted @ 2016-12-04 19:09 fionaplanet 阅读(14337) 评论(0) 推荐(0)

卷积神经网络

摘要：为什么除了人工神经网络，又冒出来卷积神经网络、循环神经网络等等，因为之前人工神经网络的框架，对于高纬度的图像等数据需要求的W太多。卷积神经网络，可以参数共享（指的是各神经元有自己的固定参数），保持了层级网络结构，不同层次有不同形式（运算）与功能（而人工神经网络都是全连接）。三个关键点：local c 阅读全文

posted @ 2016-11-29 23:08 fionaplanet 阅读(778) 评论(0) 推荐(0)

分类模型评估

摘要：一直对于各种分类器评估的指标有点晕，今天决定琢磨下，并且写下来，方便以后回忆。一、混淆矩阵来源于信息论，根据上面的混淆矩阵，有3个指标需要搞清楚，我觉得记公式真的很容易搞混，建议大家都直接记文字加上自己理解就好了。准确率=正确预测正负的个数/总个数（这个指标在python中的交叉验证时可以求准阅读全文

posted @ 2016-10-06 17:49 fionaplanet 阅读(5438) 评论(0) 推荐(0)

dataAlpha

随笔分类 - 数据挖掘及算法

公告