01 2019 档案
摘要:001参数设置 hive执行命令的本质是mapreduce,当然也可以作为关系型数据库进行查询
阅读全文
摘要:词频统计 #创建表,只有一列,列名line create table word_count ( line string) row format delimited fields terminated by '\t' lines terminated by '\n'; #导入一篇文章到表里 load data local inpath '/home/dip/test/word_count.txt...
阅读全文
摘要:#!一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列 注意,这个和最长公共字串不一样,最长公共子串要求连续。 1.算法公式: 这里只是返回最大长度,如果求最大子序列,还需要进行回溯。
阅读全文
摘要:统计每篇文章重要的词作为这篇文章的关键词,用tf-idf来实现。生产中有很多第三包可以调用,这里记录原理,顺便熟练python 1、公式 : 计算词频TF 考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。 或者 计算反文档频率idf
阅读全文
摘要:1.句子如下: 2.分词: 2.词频向量化: 4.计算2个向量的相似度:
阅读全文
摘要:tar -c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件 这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。 -z:有gzip属性的-j:有bz2属性的-Z:有comp
阅读全文
摘要:本学习基于redhat系统或者centos系统 一、软件包的安装 1.rpm安装,rpm安装分为俩种,一种是直接安装xxx.rpm包,另一种是通过yum安装一系列的rpm包。 #推荐使用yum安装,yum安装可以将rpm包的依赖关系自动识别,然后进行安装。 如果没有yum源,只能下载好所有的包,然后
阅读全文

浙公网安备 33010602011771号