2016 C 50193

Posted on 2019-11-07 17:33  Volcano3511  阅读(466)  评论(0编辑  收藏  举报

TOC

Key words

  • Big Data

summary

  • 数据挖掘技术来处理数据
  • 第一:处理数据
    data screening(筛选)——完整、冗余
    丢弃低于门限值的数据
    线性拟合合并数据
    PCA

归一化

  • 第二:建立ROI评价标准
    ROI = 输入输出调整参数(紧急度)——这个比率越高,投资的回报越大

使用PCA来选择属性,用薪水、教育质量等来作为输出的表现;用学费作为输入;用联邦贷款、债务和其他来作为紧急程度

用AHP来在不同的因子之间衡量确定重要程度的比重

  • 第三:两种模型
    把ROI值作为投资的回报,将结果的波动性称为“risk”,模仿经济领域的Modern Porfolio Theory来解决问题。

一年模型

Mixed Integer Linear Programming Algorithm
混合整数线性规划模型

找到了14所学校

五年模型

考虑时间因子——时间序列模型
MILP和灰色预测
找到16所学校

  • 第四
    敏感性分析:
    修改学校的数量、钱的限制、钱是否均匀分配来分析不同情况下的结果,然后找到最佳的参数。

Introduction

  1. overview of work
    **key points of the question
    **

    数据归一化
    零碎数据的处理
    学校的特性分类
    不同属性的重要程度的衡量
    如何选择学校并且分配投资
    投资时间5年,时间对于我们的ROI准则的影响

应对方法

数据筛选
使用PCA技术选择并分类属性
AHP和经济领域的知识来构建ROI——处理数据并且对学校进行排名
Modern Portfolio Theroy

  1. 假设
  • 不考虑通货膨胀和紧缩
  • 目的:提高教学质量和其他社会层面的好处
  • 双重投资的不能使效果最大化
  • 策略注重公平而不是学校的声誉
  • 考虑边缘效应——投资一大笔钱在一个学校
  • 在时间模型中,其他不被考虑的因素的影响被忽略

Data processing

数据筛选

学校

  • 只考虑2978个学校 in the file Problem C - IPEDS UIDfor Potential Candidate Schools,
  • 选择95个特性 in
    the file Problem C - Most Recent Cohorts Data (Scorecard Elements).xlsx.
  • 不考虑将要倒闭的机构
  • 删除有一半属性是空的学校

属性

  • combine some binary variables together
    eg: use the total retention rate for weighting to combine retention rate for full-time and part-time students together, named as ”Retention Rate”
  • 虽然SAT成绩和ACT成绩不能获得——可以从学校的入学要求来反映其学生的成绩
  • 标志特性来进行聚类和归类
  • 不考虑学生的地区、年龄等和ROI评价系统无关的信息

结果

2700学校
60特性

ROIEvaluation System

Solve missing data——data imputation

  • K-mens Clustering
    first using complete and meaningful data in the files to combine schools with similarity together, and then using the means of these
    similar schools to fill the missing data.

The greater the proportion of sum of square between class is and the smaller the
proportion of sum of square inner class is, the better K value is. So we choose the
K value that maximize R 2 value.

需要被填充的数据

这些数据都是很重要的

填充数据的基础

考虑以上的属性——学校之间的相似性和区别就很容易看出来了

  • 输出结果的聚类——简化模型
    使用K-means聚类
    assume that the classification
    using all the integral variables is applicable to all the missing variables

resultchoose the number of classes K from 3 to 8, ending up finding the optimal value
is 5.

  • 认为相同的学校之间有高度的相似性
    使用没有数据缺失的学校来填充同类的学校的相应的列

归一化处理

便于比较
** Min-max normalization**

Model construction

ROI模型

  1. output:教育质量
    毕业薪水、保留率、偿还能力、和教育深造比例
    这四项不重合——用PCA来衡量;
    这四项对于学校的输出都有重要意义

    SAG:三个指标
    There are three factors representing salary, “md earn_wne p10”, “md earn wne p6” and “gt 25k p6”
    同样使用PAC来觉得这些参数的比例——p6——占95%

RR——衡量投资的有效性
这个比例越高,受益的学生越多——学术氛围更强

RA ——对社会的贡献——和毕业后薪水不同

EER
use normalized data of “md earn wne p6” minus normalized data of “SAT scores” and then normalize it again to represent the Edu-
cation Enhance Rate.
the salary can reflect the level of students
after graduation and the “SAT scores” can reflect the level before entry.

** AHP**
得到完整的评价指数——层次分析

AHP——广泛使用,但是客观性比较低
四个参数都是比较主观的——所以用的是AHP而不是其他客观性较强的方法

input

It means given one dollar, schools
with low Input and high Output can create more value.
只有一个参数——NP
因为只有一个参数,需要控制他的影响——不然学费低的学校排名总是靠前的——引入阿拉法因子=0.25

Urgency

在经济领域,只要输入和输出就行了,但是在我们这个问题上——需要引入纠正参数——Urgency
三个方面:Pell
Grants, Federal Loan, Debt

  1. Grant
  2. FL:
    3.Debt:学校的可靠程度
    So we choose “GRAD DEBT M
    DN SUPP”, median debt of completers, suppressed for n=30, to represent
    Debt

尽管这三个参数相似——PCA显示他们是独立的
each explains 31%, 13%, 56% of the result

使用灰色理论俩预测ROI

对于5年这个长期的时间
灰度理论——模型的不确定性和信息的不充足——分析和理解系统——通过条件分析、预测和决策。
This theory is applied mainly on in-complete and un-determinable problems

GM(1,1) is one of models of gray theory. which uses an accumulated generation op-
eration(AGO) and some equations to produce an infinite grey sequences to predict the
following data with observed data.

Model Construction

Risk Deifnition

In financial sector, Modern Portfolio Theory was used to measure risk and benefits, draw-
ing the Efficient Frontier of all the risky assets and find the Tangency Portfolio.

σ e indicates the standard
deviation of “md earn wne p6”, and µ e indicates the means of “md earn wne p6”.

larger fluctuation of Output leads to larger risk.

we use the concept of Modern Portfolio
Theory, drawing risk-benefit plots, using Mixed Integer Linear Programming(MILP) to
solve the problem

Basic Model


The objective is to maximize the total return, since the ROI is define as rate of return

先限制一些基本的不等关系

时间序列模型

we induce
the decision variables x t and y t , in which the time series t∈T ={1, 2, 3, 4, 5}

结果和前面的类似,但是还是有一些不同

By using IBM ILOG CPLEX, we solve the
model, get the global optimal solution and receive the following result

From the result, we not only select the school but also determine in which years they
should be invested in order to maximize the total revenue.
we set a upper bound and a lower bound of the total investment in each year

Sensitive analysis and vaildation

Risk-Return

  • basic model
    改变了最大的可接受风险,分析了最大回报
    当最大的可接受分析增大,最大回报也增大——验证了我们的预期和现实
    但是当最大风险指数大于。082,最大回报不会增加了

学校数量

在时间序列模型中,改变选择的学校数量然后分析最大回报

学校的数量应该是逐年上升的,最大回报是先升后降的
最佳数量——12左右

分配方法

考虑时间的情况下,金额分配很重要
测试了四种基本策略

  1. 第一年拨款
  2. 五年平均拨款
  3. 五年内不平均拨款,但是有最低和最高限度
  4. 五年内不平均拨款,没有其他限制

第四种效果最好


From table(7), we find that policy 4 get the best result. But, in that situation, only
5000000 dollars are distributed in the first year and second year, which is not practi-
cal We also find that the gap between our policy, i.e. policy3 and policy 4 is only about 3.5% and we avoid the extreme bias among the years, so our model is valid.

future work

Due to limitation of time, lack of accessible data and experience in related field
the chosen university is not very idea

Invite experts to do the subjective evaluation.

Focus on different subjects and different students.

More data is needed.

conclusion

  • 大量数据处理
  • 两种模型:basic和时间序列
  • 方法多:AHP, PCA, K-means clustering, MILP, Grey Theory and other financial theory

Advantages

  • 理论支持
  • 跨学科——从经济理论得到灵感
  • 灵活性和可扩展性

Disadvantages

  • 数据不够
  • 主观性
  • 假设简化
  • 忽略了未来的动态变化

Letter

para1

背景简介——为什么;是什么;有什么用
准则——提高教育表现
正文:

  1. 学校分类
  2. measure the average ability of students before entrances and after graduation
    ROI——解释各个部分
    介绍PCA——考虑因素之间的独立性

综述:16个学校
祝福语

思考

  1. 对于特殊数据的处理要提到——感觉可以加分,让人感觉你的考虑是严密的
  2. 聚类可以用估计的数据,一旦聚类之后,用同类的真实值来代替缺失的数据

题目

该 Goodgrant 基金会就是要帮助提高本科生参加在美国学院和大学教育表现的慈善组织。
要做到这一点,该基金会拟共$ 100,000,000(US100 万美元)捐给每年学校提供适当的组,
五年了,7 月开始到 2016 年这样做,他们不希望重复投资和其他重点大型授予组织如盖茨基金会和 Lumina 的基础。
您的团队已要求由 Goodgrant 基金会建立一个模型来确定确定学校的最优投资策略,每所学校的投资金额,这项投资的回报,并且持续时间,该组织的资金应提供有生产对学生的表现有很强的正效应的可能性最高。这一战略应包含适当的方式定义的学校,都是基于每个候选学校的证明为有效利用私人资金的可能,建议投资的 1 到 N 优化并优先候选名单,和投资回报(ROI)的预计回报慈善组织如基金会 Goodgrant。
为了帮助你的努力,附加的数据文件(ProblemCDATA.zip)包含来自美国国家中心教育统
计(www.nces.ed.gov/ipeds)
它保持在几乎所有的后调查信息的大型数据库中提取信息二级学院和美国大学,其中包含了各种制度绩效数据学院记分卡数据集(https://collegescorecard.ed.gov)。
您的模型和随后的策略必须基于这两个数据集的一些有意义的和可防御的子集。 除了为您的 MCM 提交所要求的一页纸的总结,你的报告必须包括了一封信给 Goodgrant
基金,阿尔法蒋先生,描述最优投资策略的首席财务官(CFO),您的建模方法和主要结果,和你提出了一个回报的投资回报(ROI)的概念,简要讨论了 Goodgrant 基金会应采取评估2016 年捐款(S)和在美国未来的慈善教育的投资。这封信应不大于长两页多。
注意:当您提交最终电子解决方案不包含任何数据库文件。应提交的唯一的事情就是你的电子(Word 或 PDF)解决方案。
该 ProblemCDATA.zip 数据文件包含:
C - IPEDS UID 为潜在的候选 Schools.xlsx
C - 最近客群组数据(记分卡元素)的.xlsx
C - CollegeScorecardDataDictionary-09-08-2015.xlsx
IPEDS 变量对于数据 Selection.pdf

相关概念

ROI

[投资回报率](ROI)是指通过投资而应返回的价值,即企业从一项投资活动中得到的经济回报。它涵盖了企业的获利目标。利润和投入经营所必备的财产相关,因为管理人员必须通过投资和现有财产获得利润。投资可分为实业投资和金融投资两大类,人们平常所说的金融投资主要是指证券投资。证券投资的分析方法主要有如下三种:[基本分析]、[技术分析]、[演化分析],其中基本分析主要应用于投资标的物的选择上,技术分析和演化分析则主要应用于具体投资操作的时间和空间判断上,作为提高投资分析有效性和可靠性的重要补充。

现代投资组合理论Modern Portfolio Theory

现代投资组合理论Modern Portfolio Theory)归结了[理性]投资者如何利用[分散投资]来优化他们的[投资组合]。在理论中,资产的报酬是一个[随机变量]。 既然一个投资组合是资产的加权组合,投资组合的报酬也应该是一个[随机变量],投资组合的回报因此有一个[期望值]和一个[变异量]。在模型中,风险为投资组合报酬的[标准差]。 近些年来, MPT的基本假设受到了[行为经济学])的广泛挑战。

现代投资组合理论假定投资者为规避风险(Risk Averse)的投资者。如果两个资产拥有相同预期回报,投资者会选择其中风险小的那一个。只有在获得更高预期回报的前提下,投资者才会承担更大风险。换句话说,如果一个投资者想要获取更大回报,他(她)就必须接受更大的风险。一个[理性]投资者会在几个拥有相同预期回报的投资组合中间选择其中风险最小的那一个投资组合。另一种情况是如果几个投资组合拥有相同的投资风险,投资者会选择预期回报最高的那一个。这样的投资组合被称为最佳投资组合(Efficient Portfolio)。

PCA(Principal Component Analysis)

是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维

 主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。

GAMS/Cplex

是一种用于GAMS (The General Algebraic Modeling System,通用代数建模系统)的求解器,它使得用户可以把GAMS(通用代数建模系统的)的高级建模功能跟Cplex优化器的优势结合起来。Cplex优化器是为能快速、最少用户干预地解决大型、复杂问题而设计的。求解线性、二次约束和混合整数规划问题的Cplex算法现在已提供访问(针对恰当的许可证)。尽管现存有多种求解工具,但是,GAMS/Cplex能自动地为特定问题计算最优值和设置大部分选项。

CPLEX是IBM公司中的一个优化引擎。
1、该优化引擎用来求解线性规划(LP)、二次规划(QP)、带约束的二次规划(QCQP)、二阶锥规划(SOCP)等四类基本问题,以及相应的混合整数规划(MIP)问题。
2、CPLEX具有的优势: (1)能解决一些非常困难的行业问题; (2)求解速度非常快; (3)有时还提供超线性加速功能的优势。
3、软件IBM ILOG CPLEX Optimization Studio中自带该优化引擎。IBM ILOG CPLEX Optimization Studio具有执行速度快、其自带的语言简单易懂、并且与众多优化软件及语言兼容(与C++,JAVA,EXCEL,Matlab等都有接口),因此在西方国家应用十分广泛。由于在中国还刚刚全面推广不久,因此应用还不是很广,但是发展空间很大。

words

  • deviation n. 偏差;误差;背离