随笔分类 -  数据挖掘

利用pipeline批量插入数据到redis
摘要:在推荐系统中,推荐候选集格式一般是,itemid itemid_list。要把itemid作为key,推荐列表作为value批量插入到redis。 比如文件cf.data为: 在item前加cf,是为了标注此推荐候选集是有CF算法计算得到的。 这时候会报错,那是字符编码格式问题,我的系统环境是LIN 阅读全文

posted @ 2018-05-31 10:18 NothingLZ 阅读(313) 评论(0) 推荐(0)

Python教程:urlparse模块
摘要:使用urlparse模块可以对url进行分析,最主要的操作就是拆分和合并url的各个部件,那么url有哪些部件呢?下图列出了所有的部件。你可能不太理解,不要着急,我们在例子中看看每个部分都代表着什么。 引入urlparse模块,这里只引入了urlparse方法,如果你想要用所有的方法,你需要impo 阅读全文

posted @ 2018-05-11 21:32 NothingLZ

pandas教程:DataFrame切片操作
摘要:恢复内容开始 DataFrame数据框允许我们使用iloc方法来像操作array(数组)一样对DataFrame进行切片操作,其形式上,跟对数组进行切片是一样的,我们下面来演示一下一些典型的切片操作: 先创建一个6行4列的DataFrame数据框 使用iloc方法,提取第四行数据: 我们可以看一下, 阅读全文

posted @ 2018-05-11 21:29 NothingLZ

pandas教程:填充缺失值
摘要:当数据中存在NaN缺失值时,我们可以用其他数值替代NaN,主要用到了DataFrame.fillna()方法,下面我们来看看具体的用法: 先来创建一个带有缺失值的数据框具体数据内容为: 使用0替代缺失值(当然你可以用任意一个数字代替NaN)输出结果为: 用一个字符串代替缺失值输出结果为: 用前一个数 阅读全文

posted @ 2018-05-11 21:24 NothingLZ

RPC服务和HTTP服务对比
摘要:很长时间以来都没有怎么好好搞清楚RPC(即Remote Procedure Call,远程过程调用)和HTTP调用的区别,不都是写一个服务然后在客户端调用么?这里请允许我迷之一笑~Naive!本文简单地介绍一下两种形式的C/S架构,先说一下他们最本质的区别,就是RPC主要是基于TCP/IP协议的,而 阅读全文

posted @ 2018-05-09 14:49 NothingLZ

逻辑回归原理(python代码实现)
摘要:Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程,为最大化方程,利用牛顿梯度上升求解方程参数。 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 使用数据类型:数值型和标称型数据。 介绍逻辑回归之前,我们先看一问题 阅读全文

posted @ 2018-03-19 21:48 NothingLZ 阅读(23208) 评论(0) 推荐(2)

朴素贝叶斯文本分类(python代码实现)
摘要:朴素贝叶斯(naive bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。 优点:在数据较少的情况下仍然有效,可以处理多分类问题。 缺点:对入输入数据的准备方式较为敏感。 使用数据类型:标称型数据。 下面从一个简单问题出发,介绍怎么使用朴素贝叶斯解决分类问题。 一天,老师问了个问题,只根据 阅读全文

posted @ 2018-03-19 21:41 NothingLZ 阅读(9589) 评论(0) 推荐(0)

KNN算法原理(python代码实现)
摘要:kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。 - 优点:精度高、对异常值不敏感 阅读全文

posted @ 2018-03-19 21:35 NothingLZ 阅读(1526) 评论(0) 推荐(0)

决策树原理实例(python代码实现)
摘要:决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感觉“亲切”许多。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,可以处理不相关特征数据。 缺点:可 阅读全文

posted @ 2018-03-19 21:30 NothingLZ 阅读(34149) 评论(2) 推荐(2)

TF-IDF与余弦相似性的应用(三):自动摘要
摘要:有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。 阅读全文

posted @ 2018-03-03 10:51 NothingLZ 阅读(249) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用(二):找出相似文章
摘要:今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。 为 阅读全文

posted @ 2018-03-02 12:00 NothingLZ 阅读(211) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用(一):自动提取关键词
摘要:有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都 阅读全文

posted @ 2018-03-02 11:52 NothingLZ 阅读(209) 评论(0) 推荐(0)

flume简介
摘要:组件介绍: 代理 Flume Agent agent source agent channel 监控网络端口使用 启动命令:flume-ng agent -n a1 -c $FLUME_HOME/conf -f $FLUME_HOME/conf/example.conf -Dflume.root.l 阅读全文

posted @ 2018-03-02 00:00 NothingLZ 阅读(184) 评论(0) 推荐(0)

导航