摘要:
第一步:依据conf目录下的program.list文件在raw_data下面建立一个各个节目名称的文件夹依据conf目录下的program_keywords文件在各个节目路径下面建立该节目对应的过滤词文件第二步:依据节目的过滤词从sina_weibo.data中根据每个节目下的若干个关键词依次进行过滤得到对应的program.data文件格式为提取到的字段为微博id($2) 用户id($3) 创建时间($5) 转发($11) 评论($12) 赞($13) 内容($6) 以上两个步骤处理的完整脚本文件为:第三步:单独通过节目名称过滤的,保存在.title文件中(其实二三步可以合并)第四部:抽取 阅读全文
posted @ 2014-03-01 22:28
bobo的学习笔记
阅读(383)
评论(0)
推荐(0)
浙公网安备 33010602011771号