06 2016 档案
摘要:使用python计算crf根据模型的分词结果的准确率,召回率和F值 测试文件output.txt,第一列是字,第二列是人工标注的分词结果,第三列是根据模型使用crf得到的分词结果, 字母B:单词的首字母;字母E:单词的尾字母;字母BE:单词的中间字母 格式如下: 团 B B 圆 E E 是 BE B
阅读全文
摘要:由于一个单独的mapreduce不能解决问题,我们需要同时编写几个mapreduce或同时使用sqoop,mapreduce,pig和hive来实现,因而我们需要oozie。 oozie是一个可以包含所有程序并按顺序依次调用它们的工作流和调节引擎。 oozie包含workflow engine(工作
阅读全文
摘要:Combiner用来在map输出之前先做一次合并,减少map和reduce节点之间的数据传输,优化mapreduce。 Combiner相当于是一个小的reduce,如下所示 map:(key1,value1) ——> list(key2,value2) combiner:(key2,list(va
阅读全文
摘要:1、分区 在hive中使用select查询一般会扫描整个表的内容,从而降低降低查询的效率。引入分区的概念,使得查询时只扫描表中关心的部分数据。 一个表中可以有一个或多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。 1.1分区建表分为单分区和双分区建表: 单分区建表语句:create tab
阅读全文
摘要:1、读入文本内容 2、将手动分完词的文本进行词频统计 3、计算tf值 4、计算IDF 5、计算tfidf 6、将每个文本中tfidf值排名前100的词和相应的tfidf值输出
阅读全文
摘要:简单爬取豆瓣网同城活动内容,爬取结果: di : 金阳东街18号万科都荟体验... title : 万科携手设计地图100 献上原创“家剧”大片 time : 5月29日 周日 - 6月12日 周日 score : 23人关注 di : 云南路50号和光陶社 title : 色诱——小草釉画展 ti
阅读全文
摘要:import os import os.path import codecs import numpy import pandas import jieba #创建语料库 corpos = pandas.DataFrame(columns=['filePath', 'content']) for root, dirs, files in os.walk( "D:\\PDM\\2.1\...
阅读全文

浙公网安备 33010602011771号