已有关键词的情况下统计词频制作词云

不会C#所以英文关键词是手动整理的;中文关键词可以直接从知网导出,详见如何用R分析CNKI文献关键词词频? - 简书 (jianshu.com)

R语言基本功不扎实,所以前期整理关键词使用的笨法子(word中把格式统一了,把标点空格统一换成 ‘;’,然后粘贴到txt中用R打开,这时的数据是一行拥有特别的列的数据,再把它write.csv,复制→转置,得到一列n行的数据,命名列名)...(吐槽:总之非常麻烦,还得好好打磨编程基本功)

之后(因为是统计论文关键词所以不涉及停用词问题):

 1 df2 <- read.table('合作.txt',sep = ';')#
 2 df2
 3 write.csv(df2,'co-author.csv')#写,在csv中转置为一列多行(这一步需要大优化)
 4 df2_1 <- read.csv('co-author.csv')
 5 df2_1
 6 result2 <- df2_1 %>%#通道
 7   unnest_tokens(word, keywords, token = stringr::str_split, pattern = ";;") %>%#这一步其实没必要,去除分号用的
 8   anti_join(stop_words) %>%#导入停用词,可以自行编辑停用词表导入
 9   count(word, sort = TRUE)#统计频数
10 wordcloud2(result2,gridSize = 100,shape='rectangular',col="random-dark")#制图,gridSize:"用于标记画布可用性的网格大小(以像素为单位),网格大小越大,单词之间的差距就越大。 "

 

posted @ 2021-10-26 17:09  人生不相见  阅读(262)  评论(0)    收藏  举报