上一页 1 2 3 4 5 6 ··· 15 下一页

2015年12月3日

【转】TF-IDF与余弦相似性的应用(二):找出相似文章

摘要: 原文链接 http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻... 阅读全文

posted @ 2015-12-03 16:26 develooop 阅读(236) 评论(0) 推荐(0) 编辑

【转】TF-IDF与余弦相似性的应用(一):自动提取关键词

摘要: 原文链接 http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请... 阅读全文

posted @ 2015-12-03 16:25 develooop 阅读(168) 评论(0) 推荐(0) 编辑

基于MLlib的机器学习

摘要: 《Spark快速大数据分析》11.1概述MLlib的设计理念非常简单:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib引入了一些数据类型,比如点和向量,不过归根结底,MLlib就是RDD上一系列可供调用的函数的集合。比如,如果要用MLlib来完成文本分类的任务,例如识别垃圾邮件... 阅读全文

posted @ 2015-12-03 01:24 develooop 阅读(2065) 评论(0) 推荐(0) 编辑

2015年11月24日

shell 字符串切分成数组

摘要: #!/bin/bashread i1 i2echo $i1echo $i2OLD_IFS=$IFS#设置IFS为空格和逗号IFS=" ,"arr=($i2)IFS=$OLD_IFSecho ${#arr[@]}执行1 2 3 4 5 612 3 4 5 65调用read,由用户输入,第一个输入数字... 阅读全文

posted @ 2015-11-24 10:55 develooop 阅读(1277) 评论(0) 推荐(0) 编辑

2015年11月20日

RDD关键性能考量之 内存管理

摘要: 《Spark快速大数据分析》8.4.2关键性能考量 内存管理内存对Spark来说哟几个不同的用途,理解并调优Spark的内存使用方法可以帮助优化Spark应用。在各个执行器进程中,内存有一下所列集中用途。RDD存储当调用RDD的persist()或cache()方法时,这个RDD的分区会被存储到缓存... 阅读全文

posted @ 2015-11-20 00:28 develooop 阅读(693) 评论(0) 推荐(0) 编辑

2015年11月19日

RDD关键性能考量之 序列化格式

摘要: 《Spark快速大数据分析》8.4.2关键性能考量 序列化格式当Spark需要通过网络传输数据,或是将数据写到磁盘上时,Spark需要把数据序列化为二进制格式。序列化会在数据进行混洗操作时发生,此时有可能需要通过网络传输大量数据。默认情况下,Spark会使用Java内建的序列化库。Spark也支持使... 阅读全文

posted @ 2015-11-19 23:01 develooop 阅读(1248) 评论(0) 推荐(0) 编辑

【转】Linux ln(link) 命令详解

摘要: 原文链接 http://blog.chinaunix.net/uid-25445243-id-3206874.html功能:为某一个文件或目录在另外一个位置建立一个同步的链接,类似Windows下的超级链接。这个命令最常用的参数是-s,具体用法是:sudo ln -s 源文件 目标文件 当我们需要在... 阅读全文

posted @ 2015-11-19 18:33 develooop 阅读(3540) 评论(0) 推荐(0) 编辑

【转】redis配置认证密码

摘要: 原文链接 http://blog.csdn.net/zyz511919766/article/details/42268219redis配置密码1.通过配置文件进行配置yum方式安装的redis配置文件通常在/etc/redis.conf中,打开配置文件找到[plain]view plaincopy... 阅读全文

posted @ 2015-11-19 18:28 develooop 阅读(172) 评论(0) 推荐(0) 编辑

【转】MongoDB 知识要点一览

摘要: 原文链接 http://www.cnblogs.com/zhangzili/p/4975080.htmlMongoDB 知识要点一览1、启动mongoDb数据库: 进入mongoDB的安装目录,执行如下命令 C:\Program Files\MongoDB\Server\3.0\bin>mong... 阅读全文

posted @ 2015-11-19 13:23 develooop 阅读(251) 评论(0) 推荐(0) 编辑

RDD关键性能考量之 并行度

摘要: 《Spark快速大数据分析》8.4关键性能考量并行度RDD的逻辑表示其实是一个对象的集合。在物理执行期间,RDD会被分为一系列的分区,每个分区都是整个数据的子集。当Spark调度并运行任务时,Spark会为每个分区中的数据创建出一个任务,该任务在默认情况下会需要集群中的一个计算节点来执行。Spark... 阅读全文

posted @ 2015-11-19 00:54 develooop 阅读(1285) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 15 下一页

导航

AmazingCounters.com