摘要: 1、问题 在一些报告中,末尾会带有时间标识如: 各位代表:现在,我代表国务院向大会作政府工作报告,请予审议,并请全国政协各位委员提出意见。 [09:05] 一、2009年工作回顾 [09:05] 在进行文本处理时,希望将该时间标识去除,在使用UltraEdit处理时,UltraEdit本身正则表达式 阅读全文
posted @ 2015-11-18 11:23 hongweigg 阅读(22) 评论(0) 推荐(0)
摘要: 在R语言中,如果直接用history()命令查询历史命令,发现返回的条数有限。可以带一个返回命令条数的参数,返回更多的命令行,例如: history(100) 阅读全文
posted @ 2015-11-18 10:59 hongweigg 阅读(75) 评论(0) 推荐(0)
摘要: 以总理2015报告原文进行挖掘处理,先将报告内容保存为TXT格式文本。 需要的包:rJava,Rwordseg,wordcloud。 library(rJava) library(Rwordseg) library(wordcloud) 1、读入文本数据 mydata<-read.csv("D:/t 阅读全文
posted @ 2015-11-18 10:24 hongweigg 阅读(20) 评论(0) 推荐(0)