已有关键词的情况下统计词频制作词云
不会C#所以英文关键词是手动整理的;中文关键词可以直接从知网导出,详见如何用R分析CNKI文献关键词词频? - 简书 (jianshu.com)。
R语言基本功不扎实,所以前期整理关键词使用的笨法子(word中把格式统一了,把标点空格统一换成 ‘;’,然后粘贴到txt中用R打开,这时的数据是一行拥有特别的列的数据,再把它write.csv,复制→转置,得到一列n行的数据,命名列名)...(吐槽:总之非常麻烦,还得好好打磨编程基本功)
之后(因为是统计论文关键词所以不涉及停用词问题):
1 df2 <- read.table('合作.txt',sep = ';')#读 2 df2 3 write.csv(df2,'co-author.csv')#写,在csv中转置为一列多行(这一步需要大优化) 4 df2_1 <- read.csv('co-author.csv') 5 df2_1 6 result2 <- df2_1 %>%#通道 7 unnest_tokens(word, keywords, token = stringr::str_split, pattern = ";;") %>%#这一步其实没必要,去除分号用的 8 anti_join(stop_words) %>%#导入停用词,可以自行编辑停用词表导入 9 count(word, sort = TRUE)#统计频数 10 wordcloud2(result2,gridSize = 100,shape='rectangular',col="random-dark")#制图,gridSize:"用于标记画布可用性的网格大小(以像素为单位),网格大小越大,单词之间的差距就越大。 "
浙公网安备 33010602011771号