摘要: plyr包是Hadley Wickham大神为解决split – apply – combine问题而写的一个包,其动机在与提供超越for循环和内置的apply函数族的一个一揽子解决方案。使用plyr包可以针对不同的数据类型,在一个函数内同时完成split – apply – combine三个步骤 阅读全文
posted @ 2022-06-14 09:21 郝hai 阅读(787) 评论(0) 推荐(0)
摘要: 现在大家对爬虫的兴趣不断高涨,R和PYTHON是两个非常有力的爬虫工具。Python倾向于做大型爬虫,与R相比,语法相对复杂,因此Python爬虫的学习曲线会相对陡峭。对于那些时间宝贵,又想从网上获取数据的初学者而言,用R做爬虫是最好的选择,有三个原因:R语法相对直观,规则更加灵活;对于数据量不大的 阅读全文
posted @ 2022-06-13 08:41 郝hai 阅读(630) 评论(0) 推荐(0)
摘要: ##搜狗细胞词库解析 ###一、 加载R包转换 library(rJava) library(Rwordseg) write.csv(as.data.frame(importSogouScel('wuliu.scel'))['dict.word'],'物流.csv') Dictionary: 物流词 阅读全文
posted @ 2022-05-22 06:34 郝hai 阅读(204) 评论(0) 推荐(0)
摘要: 文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。 ###一 阅读全文
posted @ 2022-05-21 12:01 郝hai 阅读(363) 评论(0) 推荐(0)
摘要: 文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。 ###一 阅读全文
posted @ 2022-05-21 11:46 郝hai 阅读(1028) 评论(0) 推荐(0)
摘要: 文本挖掘可以视为NLP(Natural language processing,自然语言处理)的一个子领域,目标是在大量非结构化文本中整理析取出有价值的内容。由于人类语言具有很高的复杂性,例如不同语言间语法不同,组成方式不同,还有语言种类的多样性,使得NLP是目前机器学习领域最困难的技术之一,里面的 阅读全文
posted @ 2022-05-20 08:29 郝hai 阅读(1419) 评论(0) 推荐(0)
摘要: 文本挖掘是从非结构化的文本信息中抽取潜在的、用户感兴趣的重要模式或知识的过程,可以把它看作数据挖掘或数据库中知识发现的延伸。对文本信息的挖掘主要是以数理统计学和计算语言学为理论基础,让计算机发现某些文字出现的规律以及文字与语义、语法间的联系。文本挖掘涉及多个学科领域,如信息检索、文本分析、信息抽取等 阅读全文
posted @ 2022-05-19 20:58 郝hai 阅读(473) 评论(0) 推荐(0)
摘要: 现在大家对爬虫的兴趣不断高涨,R和PYTHON是两个非常有力的爬虫工具。Python倾向于做大型爬虫,与R相比,语法相对复杂,因此Python爬虫的学习曲线会相对陡峭。对于那些时间宝贵,又想从网上获取数据的初学者而言,用R做爬虫是最好的选择,有三个原因:R语法相对直观,规则更加灵活;对于数据量不大的 阅读全文
posted @ 2022-05-16 17:25 郝hai 阅读(2381) 评论(0) 推荐(0)
摘要: 常用R语言包 ——数据处理:lubridata ,plyr ,reshape2,stringr,formatR,mcmc; ——机器学习:nnet,rpart,tree,party,lars,boost,e1071,BayesTree,gafit,arules; ——可视化包:ggplot2,lat 阅读全文
posted @ 2022-05-04 22:08 郝hai 阅读(4564) 评论(0) 推荐(0)
摘要: 在数据分析和统计建模中,数据导入是进行数据分析的第一步。R 语言作为一门强大的数据分析工具,支持从多种文件格式中读取数据,包括文本文件(如 .txt、.csv)、Excel 文件(如 .xls、.xlsx)、剪贴板(clipboard)、数据库、网页数据、JSON 文件、XML 文件等。R 提供了丰 阅读全文
posted @ 2022-05-04 19:35 郝hai 阅读(827) 评论(0) 推荐(0)