数据挖掘 - 随笔分类 - NothingLZ

利用pipeline批量插入数据到redis

摘要：在推荐系统中，推荐候选集格式一般是，itemid itemid_list。要把itemid作为key，推荐列表作为value批量插入到redis。比如文件cf.data为：在item前加cf，是为了标注此推荐候选集是有CF算法计算得到的。这时候会报错，那是字符编码格式问题，我的系统环境是LIN 阅读全文

posted @ 2018-05-31 10:18 NothingLZ 阅读(313) 评论(0) 推荐(0)

Python教程：urlparse模块

摘要：使用urlparse模块可以对url进行分析，最主要的操作就是拆分和合并url的各个部件，那么url有哪些部件呢？下图列出了所有的部件。你可能不太理解，不要着急，我们在例子中看看每个部分都代表着什么。引入urlparse模块，这里只引入了urlparse方法，如果你想要用所有的方法，你需要impo 阅读全文

posted @ 2018-05-11 21:32 NothingLZ

pandas教程：DataFrame切片操作

摘要：恢复内容开始 DataFrame数据框允许我们使用iloc方法来像操作array（数组）一样对DataFrame进行切片操作，其形式上，跟对数组进行切片是一样的，我们下面来演示一下一些典型的切片操作：先创建一个6行4列的DataFrame数据框使用iloc方法，提取第四行数据：我们可以看一下，阅读全文

posted @ 2018-05-11 21:29 NothingLZ

pandas教程：填充缺失值

摘要：当数据中存在NaN缺失值时，我们可以用其他数值替代NaN，主要用到了DataFrame.fillna()方法，下面我们来看看具体的用法：先来创建一个带有缺失值的数据框具体数据内容为：使用0替代缺失值（当然你可以用任意一个数字代替NaN）输出结果为：用一个字符串代替缺失值输出结果为：用前一个数阅读全文

posted @ 2018-05-11 21:24 NothingLZ

RPC服务和HTTP服务对比

摘要：很长时间以来都没有怎么好好搞清楚RPC（即Remote Procedure Call，远程过程调用）和HTTP调用的区别，不都是写一个服务然后在客户端调用么？这里请允许我迷之一笑~Naive！本文简单地介绍一下两种形式的C/S架构，先说一下他们最本质的区别，就是RPC主要是基于TCP/IP协议的，而阅读全文

posted @ 2018-05-09 14:49 NothingLZ

逻辑回归原理（python代码实现）

摘要：Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程，为最大化方程，利用牛顿梯度上升求解方程参数。优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。使用数据类型：数值型和标称型数据。介绍逻辑回归之前，我们先看一问题阅读全文

posted @ 2018-03-19 21:48 NothingLZ 阅读(23208) 评论(0) 推荐(2)

朴素贝叶斯文本分类(python代码实现)

摘要：朴素贝叶斯（naive bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。优点：在数据较少的情况下仍然有效，可以处理多分类问题。缺点：对入输入数据的准备方式较为敏感。使用数据类型：标称型数据。下面从一个简单问题出发，介绍怎么使用朴素贝叶斯解决分类问题。一天，老师问了个问题，只根据阅读全文

posted @ 2018-03-19 21:41 NothingLZ 阅读(9589) 评论(0) 推荐(0)

KNN算法原理（python代码实现）

摘要：kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。简单地说，K-近邻算法采用测量不同特征值之间的距离方法进行分类。 - 优点：精度高、对异常值不敏感阅读全文

posted @ 2018-03-19 21:35 NothingLZ 阅读(1526) 评论(0) 推荐(0)

决策树原理实例（python代码实现）

摘要：决策数(Decision Tree)在机器学习中也是比较常见的一种算法，属于监督学习中的一种。看字面意思应该也比较容易理解，相比其他算法比如支持向量机(SVM)或神经网络，似乎决策树感觉“亲切”许多。优点：计算复杂度不高，输出结果易于理解，对中间值的缺失值不敏感，可以处理不相关特征数据。缺点：可阅读全文

posted @ 2018-03-19 21:30 NothingLZ 阅读(34149) 评论(2) 推荐(2)

TF-IDF与余弦相似性的应用（三）：自动摘要

摘要：有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法，但肯定是最简便易行的方法。今天，依然继续这个主题。讨论如何通过词频，对文章进行自动摘要（Automatic summarization）。阅读全文

posted @ 2018-03-03 10:51 NothingLZ 阅读(249) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（二）：找出相似文章

摘要：今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我举一个例子来说明，什么是"余弦相似性"。为阅读全文

posted @ 2018-03-02 12:00 NothingLZ 阅读(211) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用（一）：自动提取关键词

摘要：有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都阅读全文

posted @ 2018-03-02 11:52 NothingLZ 阅读(209) 评论(0) 推荐(0)

flume简介

摘要：组件介绍：代理 Flume Agent agent source agent channel 监控网络端口使用启动命令：flume-ng agent -n a1 -c $FLUME_HOME/conf -f $FLUME_HOME/conf/example.conf -Dflume.root.l 阅读全文

posted @ 2018-03-02 00:00 NothingLZ 阅读(184) 评论(0) 推荐(0)

随笔分类 - 数据挖掘