会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
haohai9309
格物致知,知行合一!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
38
39
40
41
42
43
44
45
下一页
2022年6月14日
R语言数据加工厂——plyr包使用
摘要: plyr包是Hadley Wickham大神为解决split – apply – combine问题而写的一个包,其动机在与提供超越for循环和内置的apply函数族的一个一揽子解决方案。使用plyr包可以针对不同的数据类型,在一个函数内同时完成split – apply – combine三个步骤
阅读全文
posted @ 2022-06-14 09:21 郝hai
阅读(787)
评论(0)
推荐(0)
2022年6月13日
R语言网络数据爬虫之三个问题
摘要: 现在大家对爬虫的兴趣不断高涨,R和PYTHON是两个非常有力的爬虫工具。Python倾向于做大型爬虫,与R相比,语法相对复杂,因此Python爬虫的学习曲线会相对陡峭。对于那些时间宝贵,又想从网上获取数据的初学者而言,用R做爬虫是最好的选择,有三个原因:R语法相对直观,规则更加灵活;对于数据量不大的
阅读全文
posted @ 2022-06-13 08:41 郝hai
阅读(630)
评论(0)
推荐(0)
2022年5月22日
R语言文本挖掘细胞词库的转换
摘要: ##搜狗细胞词库解析 ###一、 加载R包转换 library(rJava) library(Rwordseg) write.csv(as.data.frame(importSogouScel('wuliu.scel'))['dict.word'],'物流.csv') Dictionary: 物流词
阅读全文
posted @ 2022-05-22 06:34 郝hai
阅读(204)
评论(0)
推荐(0)
2022年5月21日
R语言文本数据挖掘(四)
摘要: 文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。 ###一
阅读全文
posted @ 2022-05-21 12:01 郝hai
阅读(363)
评论(0)
推荐(0)
R语言文本数据挖掘(三)
摘要: 文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。 ###一
阅读全文
posted @ 2022-05-21 11:46 郝hai
阅读(1028)
评论(0)
推荐(0)
2022年5月20日
R语言文本数据挖掘(一)
摘要: 文本挖掘可以视为NLP(Natural language processing,自然语言处理)的一个子领域,目标是在大量非结构化文本中整理析取出有价值的内容。由于人类语言具有很高的复杂性,例如不同语言间语法不同,组成方式不同,还有语言种类的多样性,使得NLP是目前机器学习领域最困难的技术之一,里面的
阅读全文
posted @ 2022-05-20 08:29 郝hai
阅读(1419)
评论(0)
推荐(0)
2022年5月19日
R语言文本数据挖掘(二)
摘要: 文本挖掘是从非结构化的文本信息中抽取潜在的、用户感兴趣的重要模式或知识的过程,可以把它看作数据挖掘或数据库中知识发现的延伸。对文本信息的挖掘主要是以数理统计学和计算语言学为理论基础,让计算机发现某些文字出现的规律以及文字与语义、语法间的联系。文本挖掘涉及多个学科领域,如信息检索、文本分析、信息抽取等
阅读全文
posted @ 2022-05-19 20:58 郝hai
阅读(473)
评论(0)
推荐(0)
2022年5月16日
R语言网络数据爬取
摘要: 现在大家对爬虫的兴趣不断高涨,R和PYTHON是两个非常有力的爬虫工具。Python倾向于做大型爬虫,与R相比,语法相对复杂,因此Python爬虫的学习曲线会相对陡峭。对于那些时间宝贵,又想从网上获取数据的初学者而言,用R做爬虫是最好的选择,有三个原因:R语法相对直观,规则更加灵活;对于数据量不大的
阅读全文
posted @ 2022-05-16 17:25 郝hai
阅读(2381)
评论(0)
推荐(0)
2022年5月4日
R语言包和中文乱码解决方案
摘要: 常用R语言包 ——数据处理:lubridata ,plyr ,reshape2,stringr,formatR,mcmc; ——机器学习:nnet,rpart,tree,party,lars,boost,e1071,BayesTree,gafit,arules; ——可视化包:ggplot2,lat
阅读全文
posted @ 2022-05-04 22:08 郝hai
阅读(4564)
评论(0)
推荐(0)
数据文件的读写—R实现
摘要: 在数据分析和统计建模中,数据导入是进行数据分析的第一步。R 语言作为一门强大的数据分析工具,支持从多种文件格式中读取数据,包括文本文件(如 .txt、.csv)、Excel 文件(如 .xls、.xlsx)、剪贴板(clipboard)、数据库、网页数据、JSON 文件、XML 文件等。R 提供了丰
阅读全文
posted @ 2022-05-04 19:35 郝hai
阅读(827)
评论(0)
推荐(0)
上一页
1
···
38
39
40
41
42
43
44
45
下一页
公告