已有关键词的情况下统计词频制作词云

不会C#所以英文关键词是手动整理的；中文关键词可以直接从知网导出，详见如何用R分析CNKI文献关键词词频？ - 简书 (jianshu.com)。

R语言基本功不扎实，所以前期整理关键词使用的笨法子（word中把格式统一了，把标点空格统一换成 ‘;’，然后粘贴到txt中用R打开，这时的数据是一行拥有特别的列的数据，再把它write.csv，复制→转置，得到一列n行的数据，命名列名）...（吐槽：总之非常麻烦，还得好好打磨编程基本功）

之后（因为是统计论文关键词所以不涉及停用词问题）：

 1 df2 <- read.table('合作.txt',sep = ';')#读
 2 df2
 3 write.csv(df2,'co-author.csv')#写，在csv中转置为一列多行（这一步需要大优化）
 4 df2_1 <- read.csv('co-author.csv')
 5 df2_1
 6 result2 <- df2_1 %>%#通道
 7   unnest_tokens(word, keywords, token = stringr::str_split, pattern = ";;") %>%#这一步其实没必要，去除分号用的
 8   anti_join(stop_words) %>%#导入停用词，可以自行编辑停用词表导入
 9   count(word, sort = TRUE)#统计频数
10 wordcloud2(result2,gridSize = 100,shape='rectangular',col="random-dark")#制图,gridSize:"用于标记画布可用性的网格大小（以像素为单位），网格大小越大，单词之间的差距就越大。 "

posted @ 2021-10-26 17:09 人生不相见阅读(262) 评论(0) 收藏举报

刷新页面返回顶部

已有关键词的情况下统计词频制作词云

公告