01 2019 档案

摘要:001参数设置 hive执行命令的本质是mapreduce,当然也可以作为关系型数据库进行查询 阅读全文
posted @ 2019-01-31 17:32 bioamin 阅读(144) 评论(0) 推荐(0)
摘要:词频统计 #创建表,只有一列,列名line create table word_count ( line string) row format delimited fields terminated by '\t' lines terminated by '\n'; #导入一篇文章到表里 load data local inpath '/home/dip/test/word_count.txt... 阅读全文
posted @ 2019-01-31 11:51 bioamin 阅读(257) 评论(0) 推荐(0)
摘要:#!一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列 注意,这个和最长公共字串不一样,最长公共子串要求连续。 1.算法公式: 这里只是返回最大长度,如果求最大子序列,还需要进行回溯。 阅读全文
posted @ 2019-01-30 14:04 bioamin 阅读(338) 评论(0) 推荐(0)
摘要:统计每篇文章重要的词作为这篇文章的关键词,用tf-idf来实现。生产中有很多第三包可以调用,这里记录原理,顺便熟练python 1、公式 : 计算词频TF 考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。 或者 计算反文档频率idf 阅读全文
posted @ 2019-01-29 17:34 bioamin 阅读(825) 评论(0) 推荐(0)
摘要:1.句子如下: 2.分词: 2.词频向量化: 4.计算2个向量的相似度: 阅读全文
posted @ 2019-01-29 14:49 bioamin 阅读(2407) 评论(0) 推荐(1)
摘要:tar -c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件 这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。 -z:有gzip属性的-j:有bz2属性的-Z:有comp 阅读全文
posted @ 2019-01-28 11:28 bioamin 阅读(505) 评论(0) 推荐(0)
摘要:本学习基于redhat系统或者centos系统 一、软件包的安装 1.rpm安装,rpm安装分为俩种,一种是直接安装xxx.rpm包,另一种是通过yum安装一系列的rpm包。 #推荐使用yum安装,yum安装可以将rpm包的依赖关系自动识别,然后进行安装。 如果没有yum源,只能下载好所有的包,然后 阅读全文
posted @ 2019-01-28 11:06 bioamin 阅读(425) 评论(0) 推荐(0)