摘要: TF IDF是什么 TF IDF是一种统计方法,用以评估一个词对于一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF IDF的使用场景 TF IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度 阅读全文
posted @ 2018-12-10 19:54 码小白 阅读(3529) 评论(0) 推荐(0) 编辑
摘要: 前边我们已经学会了博客的搭建了,这次我们来看看怎么样让我们的博客更漂亮,更个性化。那就是来更换博客的主题,让我们的博客与众不同起来。我们可以去 "hexo的主题官网" 去挑选你自己喜欢的主题风格。里边收录了很多牛人自己写的漂亮的主题。 选择一个你喜欢的主题,每个主题都在GitHub上面开源的代码。下 阅读全文
posted @ 2018-12-10 19:52 码小白 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 大数据学习笔记 阅读全文
posted @ 2018-12-07 23:49 码小白 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 前提 在刚接触python的时候我想大多数人都会面临一个问题,我到底是选择2还是3,因为现在网上好多的资料和视频项目中都还是用的2,我们跟着学习的时候肯定也是首先从2开始学的,但是我们心里肯定也担心学2会不会跟不上技术的发展,毕竟3才是最新的,而且将来的项目势必也都会逐渐去支持最新的3,这个时候我们 阅读全文
posted @ 2018-11-29 11:07 码小白 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 首先需要安装git和node.js Mac下安装git和node.js 首先在终端查看是否安装了git,如果出现以下信息说明安装了git,请跳过这一步 如果没有安装,则通过homebrew安装 如果没有安装homebrew,请先安装homebrew 安装node.js Windows下安装git和n 阅读全文
posted @ 2018-11-29 11:06 码小白 阅读(225) 评论(0) 推荐(0) 编辑
摘要: Flume是什么 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume的功能 支持在日志系统中定制各类数 阅读全文
posted @ 2018-11-29 11:06 码小白 阅读(371) 评论(0) 推荐(0) 编辑
摘要: Hbase介绍 HBase 是一个 "开源" 的 "非关系型" "分布式数据库" (NoSQL),它参考了 "谷歌" 的 "BigTable" 建模,实现的编程语言为 "Java" 。它是 "Apache软件基金会" 的 "Hadoop" 项目的一部分,运行于 "HDFS" 文件系统之上,为 "Ha 阅读全文
posted @ 2018-11-29 11:04 码小白 阅读(7622) 评论(0) 推荐(0) 编辑
摘要: 前言 "spf13 vim" 是一个集成多个非常好用的vim插件的集合,对于在众多插件中不知道该怎么做选择,并且为各个插件的安装而头疼的我们提供了一个很好的工具,让我仅仅需要安装和配置一次就能拥有众多优秀的vim插件。 "spf13 vim的GitHub" 上有各个平台的安装步骤和配置方法,但是我们 阅读全文
posted @ 2018-11-29 11:03 码小白 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 查看git版本,卸载旧版本(如果没有安装git请直接到下一步) 安装依赖软件 编译安装最新的git版本 添加到环境变量 好了最新的git就装好了。 欢迎关注公众号 阅读全文
posted @ 2018-11-29 11:02 码小白 阅读(370) 评论(0) 推荐(0) 编辑