随笔分类 -  R语言

R语言,r language,Algorithms,Data Mining
摘要:dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口;tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用。 阅读全文
posted @ 2016-11-28 20:12 ShangFR 阅读(20449) 评论(2) 推荐(0)
摘要:假设检验(hypothesis test)亦称显著性检验(significant test),是统计推断的另一重要内容,其目的是比较总体参数之间有无差别。假设检验的实质是判断观察到的“差别”是由抽样误差引起还是总体上的不同,目的是评价两种不同处理引起效应不同的证据有多强,这种证据的强度用概率P来度量和表示。除t分布外,针对不同的资料还有其他各种检验统计量及分布,如F分布、X2分布等,应用这些分布对不同类型的数据进行假设检验的步骤相同,其差别仅仅是需要计算的检验统计量不同。 阅读全文
posted @ 2016-09-25 15:28 ShangFR 阅读(11365) 评论(0) 推荐(0)
摘要:与传统的OLS只得到均值方程相比,分位数回归可以更详细地描述变量的统计分布。它是给定回归变量X,估计响应变量Y条件分位数的一个基本方法;它不仅可以度量回归变量在分布中心的影响,而且还可以度量在分布上尾和下尾的影响,因此较之经典的最小二乘回归具有独特的优势。 阅读全文
posted @ 2016-08-04 16:25 ShangFR 阅读(41478) 评论(1) 推荐(2)
摘要:背包问题(Knapsack problem) 背包问题(Knapsack problem)是一种组合优化的多项式复杂程度的非确定性问题(NP问题)。问题可以描述为:给定一组物品,每种物品都有自己的重量和价格,在限定的总重量内,我们如何选择,才能使得物品的总价格最高。问题的名称来源于如何选择最合适的物 阅读全文
posted @ 2016-07-03 16:45 ShangFR 阅读(796) 评论(0) 推荐(0)
摘要:现如今,智能手机是人手一份。每天我们都通过手机与外界沟通交流,手机作为必不可少的媒介,无形中记录着我们日常生活中的点点滴滴。这些信息主要包括个人位置信息、通信信息、账号密码信息、存储文件信息等四大类。由于Android是开源的,软件用户可自行对软件进行修改、复制及再分发,直接进行信息交换。有些用户还会自己对系统进行破解,获取权限,窃取个人信息。一些山寨手机甚至还留有后门程序,固化窃听软件,并通过远程遥控使手机话筒在用户不知情的情况下开启,把手机变成一个窃听-器,造成个人隐私泄露。 阅读全文
posted @ 2016-06-14 22:14 ShangFR 阅读(7071) 评论(1) 推荐(0)
摘要:XML是一种可扩展标记语言,它被设计用来传输和存储数据。XML是各种应用程序之间进行数据传输的最常用的工具。它与Access,Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、排序、查找、相关一致性等,它仅仅是**存储数据**。事实上它与其他数据表现形式最大的不同是:它极其简单,这是一个看上去有点琐细的优点,但正是这点使它与众不同。针对XML格式数据,R语言XML包可以对其进行数据导入与处理,详见下面的案例说明。 阅读全文
posted @ 2016-06-06 16:15 ShangFR 阅读(12739) 评论(0) 推荐(0)
摘要:单从外观上看,VAR&VaR两个模型很容易混淆,但就模型方法和用处两者截然不同,R语言作为数据分析的有力工具,其函数包库中包含各种各样的统计模型。通过vars包可以调用向量自回归模型,通过PerformanceAnalytics包的VaR函数可以调用风险价值模型。 阅读全文
posted @ 2016-06-05 23:20 ShangFR 阅读(7084) 评论(0) 推荐(0)
摘要:MySQL是一种开放源代码的关系型数据库管理系统(RDBMS),MySQL数据库系统使用最常用的数据库管理语言 结构化查询语言(SQL)进行数据库管理。 "百度百科" 1. MySQL安装 官网下载软件,选择 "MySQL on Windows (Installer & Tools)" 套装,包含如 阅读全文
posted @ 2016-05-30 12:02 ShangFR 阅读(2042) 评论(0) 推荐(0)
摘要:>中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。准确度较高的是统计分词算法,常用的有最大概率法和隐式马尔科夫模型。分词结束后,使用TF-IDF文本关键词特征提取算法,TF-IDF是一种统计方法,用以评估一字词对于一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,按词语重要性从中提取特定数量的词语组成这篇文章的关键词集合。 阅读全文
posted @ 2016-05-20 13:14 ShangFR 阅读(3903) 评论(0) 推荐(0)
摘要:判断力在股票买卖过程中直观重要,依据简单地均线理论,可以理性的进行股票投资。如果将均线理论的投资策略前置一天,即假设投资者可以提前一天预测到买入点和卖出点,那么收益情况会有怎么的变化呢? 阅读全文
posted @ 2016-05-03 10:49 ShangFR 阅读(1016) 评论(0) 推荐(0)
摘要:通过**Christopher Gandrud**编写的**d3network包**可以轻松创建**基于Htmlwidgets框架**的网络图。 阅读全文
posted @ 2016-04-21 15:28 ShangFR 阅读(8376) 评论(0) 推荐(2)
摘要:read.table(),read.csv(),read.delim()等函数可以直接读取EXCEl文件,但或多或少总会遇到一些问题。XLConnect函数包,是一个可以用R处理Excel文件的高效平台。利用它可以读取或创建一个XLSX文件,并对文件进行数据处理,对文本内数据进行标记,以及可视化。 阅读全文
posted @ 2016-03-10 22:27 ShangFR 阅读(3960) 评论(0) 推荐(0)
摘要:近年来,在生物学、社交网络和健康科学等领域常采用偏相关分析法应对高维变量的系统关联性问题;这种方法对分析我国几百个城市间的PM2.5数据之间的关联关系是否有效?下面,借助我从网上找到的PM2.5数据,通过R语言软件包对数据分别进行线性相关分析和偏相关分析。R是用于统计分析、绘图的语言和操作环境。R语言的spaceExt包的glasso.miss函数采用LASSO加罚的极大似然函数法,基于BIC准则确定惩罚参数,可以测算出几百个城市的PM2.5数据之间的偏相关系数稀疏矩阵,这个矩阵可以用来描述不同城市间PM2.5的复杂关系。 阅读全文
posted @ 2015-12-22 18:54 ShangFR 阅读(3724) 评论(3) 推荐(3)
摘要:K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 阅读全文
posted @ 2015-12-18 16:27 ShangFR 阅读(5100) 评论(10) 推荐(3)
摘要:Stuttgart Neural Network Simulator是德国斯图加特大学开发的优秀神经网络仿真软件,为国外的神经网络研究者所广泛采用。本文旨在通过**使用R语言RSNNS包**中mlp函数(多层感知器)对[蘑菇数据](http://pan.baidu.com/s/1jGWDflO)建立预测模型,演示斯图加特神经网络模拟器的强大功能。RSNNS包中其它重要的网络形式还包括:dlvq(动态学习向量化网络)、rbf(径向基函数网络)、elman(elman神经网络)、 jordan(jordan神经网络)、som(自组织映射神经网络)、art1(适应性共振神经网络)等等。 阅读全文
posted @ 2015-12-17 20:03 ShangFR 阅读(8104) 评论(1) 推荐(1)
摘要:前进优化方法(Walk forward optimization),通过在同一组历史数据上执行一系列“向前看”的市场数据,并同时进行一系列的“向前看”的市场数据测试,从而模拟在现实市场环境下交易策略的不可预测性;通过一步步的向前走不断确定最佳的参数,逐步相关性检验,确认系统有效性,从而完善交易策略。进而帮助缓解使用同一组历史数据上建模导致实际演练中效果不好这一问题。 阅读全文
posted @ 2015-11-27 17:26 ShangFR 阅读(2869) 评论(0) 推荐(0)
摘要:R语言实现多准则决策模型-TOPSIS方法---多准则决策是指在具有相互冲突、不可共度的有限(无限)方案集中进行选择的决策。它是分 析决策理论的重要内容之一。 阅读全文
posted @ 2015-11-25 23:43 ShangFR 阅读(18116) 评论(1) 推荐(2)
摘要:QQ图通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况。 阅读全文
posted @ 2015-11-21 00:38 ShangFR 阅读(30315) 评论(0) 推荐(0)
摘要:在许多实际问题中,回归模型中响应变量和预测变量之间的关系可能是复杂的非线性函数。这时就需要采取非线性回归方法来建立模型。在R语言中最为常用的非线性回归建模函数是nls,本文以米氏方程为例,介绍一下这个函数。 阅读全文
posted @ 2015-11-15 23:09 ShangFR 阅读(7070) 评论(0) 推荐(0)
摘要:本文旨在演示r语言rpart包的决策树分类用法,以及利用rpart.plot对结果进行可视化 阅读全文
posted @ 2015-10-30 11:57 ShangFR 阅读(1128) 评论(0) 推荐(2)