数据分析

本词条由“科普中国”百科科学词条编写与应用工作项目 审核 。

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。

数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

中文名: 数据分析
外文名: Data Analysis

目的: 最大化地开发数据的功能
数据也称: 观测值，实验、测量、观察结果

类型编辑

在统计学领域，有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析；其中，探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。

探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。

定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”，是指对诸如词语、照片、观察结果之类的非数值型数据（或者说资料）的分析。

分析工具

Excel作为常用的分析工具，可以实现基本的分析工作，在商业智能领域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及国内产品如Yonghong Z-Suite BI套件等。

案例

沃尔玛经典营销案例：啤酒与尿布

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布” 故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算法引入到 POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。[1]

Suncorp-Metway使用数据分析实现智慧营销

Suncorp-Metway是澳大利亚一家提供普通保险、银行业、寿险和理财服务的多元化金融服务集团, 旗下拥有5个业务部门，管理着14类商品，由公司及共享服务部门提供支持,其在澳大利亚和新西兰的运营业务与900多万名客户有合作关系。

该公司过去十年间的合并与收购,使客户群增长了200%,这极大增加了客户群数据管理的复杂性,如果解决不好,必将对公司利润产生负面影响.为此,IBM公司为其提供了一套解决方案,组件包括:IBM Cognos 8 BI、IBMInitiate Master Data Service谀IBM Unica。

采用该方案后，Suncorp-Metway公司至少在以下三项业务方面取得显著成效：

1、显著增加了市场份额，但没有增加营销开支；

2、每年大约能够节省1000万美元的集成与相关成本；

3、避免向同一户家庭重复邮寄相同信函并且消除冗余系统，从而同时降低直接邮寄与运营成本。

由此可见，Suncorp-Metway公司通过该方案将此前多个孤立来源的数据集成起来，实现智慧营销，对控制成本，增加利润起到非常积极的作用。

数据分析帮助辛辛那提动物园提高客户满意度

辛辛那提动植物园成立于1873年，是世界上著名的动植物园之一，以其物种保护和保存以及高成活率繁殖饲养计划享有极高声誉。它占地面积71英亩，园内有500种动物和3000多种植物，是国内游客人数最多的动植物园之一，曾荣获Zagat十佳动物园，并被《父母》（Parent）杂志评为最受儿童喜欢的动物园，每年接待游客130多万人。

辛辛那提动植物园是一个非营利性组织，是俄亥州同时也是美国国内享受公共补贴最低的动植物园，除去政府补贴，2600万美元年度预算中，自筹资金部分达到三分之二以上。为此，需要不断地寻求增加收入。而要做到这一点，最好办法是为工作人员和游客提供更好的服务，提高游览率。从而实现动植物园与客户和纳税人的双赢。

借助于该方案强大的收集和处理能力、互联能力、分析能力以及随之带来的洞察力，在部署后，企业实现了以下各方面的受益：

·帮助动植物园了解每个客户浏览、使用和消费模式，根据时间和地理分布情况采取相应的措施改善游客体验，同时实现营业收入最大化。

·根据消费和游览行为对动植物园游客进行细分，针对每一类细分游客开展营销和促销活动，显著提高忠诚度和客户保有量。.

·识别消费支出低的游客，针对他们发送具有战略性的直寄广告，同时通过具有创意性的营销和激励计划奖励忠诚客户。

· 360度全方位了解客户行为，优化营销决策，实施解决方案后头一年节省40,000多美元营销成本，同时强化了可测量的结果。

·采用地理分析显示大量未实现预期结果的促销和折扣计划，重新部署资源支持产出率更高的业务活动，动植物园每年节省100,000多美元。

·通过强化营销提高整体游览率，2011年至少新增50,000人次“游览”。

·提供洞察结果强化运营管理。例如，即将关门前冰激淋销售出现高潮，动植物园决定延长冰激淋摊位营业时间，直到关门为止。这一措施夏季每天可增加2,000美元收入。

·与上年相比，餐饮销售增加30.7%，零售销售增加5.9%。

·动植物园高层管理团队可以制定更好的决策，不需要 IT 介入或提供支持。

·将分析引入会议室，利用直观工具帮助业务人员掌握数据。

步骤

具体方法

数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步：

1、探索性数据分析：当数据刚取得时，可能杂乱无章，看不出规律，通过作图、造表、用各种形式的方程拟合，计算某些特征量等手段探索规律性的可能形式，即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。

CNNIC数据：中国网民规模

2、模型选定分析，在探索性分析的基础上提出一类或几类可能的模型，然后通过进一步的分析从中挑选一定的模型。

3、推断分析：通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。

分析方法

1、列表法

将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系；此外还要求在标题栏中注明物理量名称、符号、数量级和单位等；根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。

2、作图法

作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果（如直线的斜率和截距值等），读出没有进行观测的对应点（内插法）或在一定条件下从图线的延伸部分读到测量范围以外的对应点（外推法）。此外，还可以把某些复杂的函数关系，通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为，取对数后得到，若用半对数坐标纸，以lgR为纵轴，以1/T为横轴画图，则为一条直线。

3、数据分析主要包含：

1. 简单数学运算（Simple Math）

2. 统计（Statistics）

3. 快速傅里叶变换（FFT）

4. 平滑和滤波（Smoothing and Filtering）

5.基线和峰值分析(Baseline and Peak Analysis)

数据来源

1、搜索引擎蜘蛛抓取数据；

2、网站IP、PV等基本数据；

3、网站的HTTP响应时间数据；

4、网站流量来源数据。

步骤

数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。

识别需求

识别信息需求是确保数据分析过程有效性的首要条件，可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求，提出对信息的需求。就过程控制而言，管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。

收集数据

有目的的收集数据，是确保数据分析过程有效的基础。组织需要对收集数

数据分析示意图

据的内容、渠道、方法进行策划。策划时应考虑：

①将识别的需求转化为具体的要求，如评价供方时，需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据；

②明确由谁在何时何处，通过何种渠道和方法收集数据；

③记录表应便于使用； ④采取有效措施，防止数据丢失和虚假数据对系统的干扰。

分析数据

分析数据是将收集的数据通过加工、整理和分析、使其转化为信息，通常用方法有：

老七种工具，即排列图、因果图、分层法、调查表、散步图、直方图、控制图；

新七种工具，即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图；

过程改进

数据分析是质量管理体系的基础。组织的管理者应在适当时，通过对以下问题的分析，评估其有效性：

①提供决策的信息是否充分、可信，是否存在因信息不足、失准、滞后而导致决策失误的问题；

②信息对持续改进质量管理体系、过程、产品所发挥的作用是否与期望值一致，是否在产品实现过程中有效运用数据分析；

③收集数据的目的是否明确，收集的数据是否真实和充分，信息渠道是否畅通；

④数据分析方法是否合理，是否将风险控制在可接受的范围；

⑤数据分析所需资源是否得到保障。

意义

在产品的整个寿命周期，包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程，以提升有效性。例如J.开普勒通过分析行星角位置的观测数据，找出了行星运动规律。又如，一个企业的领导人要通过市场调查，分析所得数据以判定市场动向，从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。

网络营销

对网络营销的意义

在中国，尽管网络营销的概念很火，但网络营销的效率低于一些发达国家也是事实。无论是门户广告、搜索引擎广告，还是广告联盟，从行业平均转化率上看，都要低于国外较为成熟国家的水平。据估计，国内的Bounce rate（蹦失率，即用户只浏览第一页即离开的比例）介于90%~99%之间，而欧美的Bounce rate则是70%左右。

诚然，国内的网络营销环境处于发展之中，环境不那么尽如人意，但中国互联网络信息中心分析师孙秀秀认为，出现这种情况的很多责任在投放广告的企业方，在于对营销背后的数据分析工作的不重视，没有精确定位有效的客户群，导致大量的展示给了不相关的网民。

通常，广告投放前的数据分析可以分为两步走。第一步：描述目标群体。比如，目标群体是18～25岁，上网购物的年轻女性。第二步：描述此群体的网络活动轨迹。

也就是说，知道目标客户群上什么网站、做什么事、在什么时间地点能够找到他非常重要。实际上，论覆盖面，网络营销还远远赶不上传统媒体。2009年底中国的互联网普及率为28.9%，而同期中国电视的普及率却已经超过80%。但是，仍旧有很多有远见的企业选择网络营销。其中的一个重要原因是，网络营销的全过程都可以被追踪到，通过数据分析可以随时调整投放方式。

采用的分析方法如下：

1、描述性统计分析

包括样本基本资料的描述，作各变量的次数分配及百分比分析，以了解样本的分布情况。此外，以平均数和标准差来描述市场导向、竞争优势、组织绩效等各个构面，以了解样本企业的管理人员对这些相关变量的感知，并利用t检验及相关分析对背景变量所造成的影响做检验。

2、Cronbach’a信度系数分析

信度是指测验结果的一致性、稳定性及可靠性，一般多以内部一致性（consistency）来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。针对各研究变量的衡量题项进行Cronbach’a信度分析，以了解衡量构面的内部一致性。一般来说，Cronbach’a仅大于0．7为高信度，低于0．35为低信度（Cuieford，1965），0．5为最低可以接受的信度水准（Nunnally，1978）。

3、探索性因素分析（exploratory factor analysis）和验证性因素分析（confirmatory factor analysis）

用以测试各构面衡量题项的聚合效度（convergent validity）与区别效度（discriminant validity）。因为仅有信度是不够的，可信度高的测量，可能是完全无效或是某些程度上无效。所以我们必须对效度进行检验。效度是指工具是否能测出在设计时想测出的结果。收敛效度的检验根据各个项目和所衡量的概念的因素的负荷量来决定；而区别效度的检验是根据检验性因素分析计算理论上相关概念的相关系数，检定相关系数的95%信赖区间是否包含1．0，若不包含1．0，则可确认为具有区别效度（Anderson，1987）。

4、结构方程模型分析（structural equations modeling）

由于结构方程模型结合了因素分析（factor analysis）和路径分析（path analysis），并纳入计量经济学的联立方程式，可同时处理多个因变量，容许自变量和因变量含测量误差，可同时估计因子结构和因子关系。容许更大弹性的测量模型，可估计整个模型的拟合程度（Bollen和Long，1993），因而适用于整体模型的因果关系。在模型参数的估计上，采用最大似然估计法（Maximum Likelihood，ML）；在模型的适合度检验上，以基本的拟合标准（preliminary fit criteria）、整体模型拟合优度（overall model fit）以及模型内在结构拟合优度（fit of internal structure of model）（Bagozzi和Yi，1988）三个方面的各项指标作为判定的标准。在评价整体模式适配标准方面，本研究采用x2（卡方）/df（自由度）值、拟合优度指数（goodness．of．f：iJt．in．dex，GFI）、平均残差平方根（root—mean．square：residual，RMSR）、近似误差均方根（root-mean—square-error-of-approximation，RMSEA）等指标；模型内在结构拟合优度则参考Bagozzi和Yi（1988）的标准，考察所估计的参数是否都到达显著水平

参考资料

1. 杨旭汤海京．数据科学导论：北京理工大学出版社，2014：17-18

数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么？

作者：Han Hsiao
链接：https://www.zhihu.com/question/19653226/answer/23794013
来源：知乎

主要区别：

“数据分析”的重点是观察数据，“数据挖掘”的重点是从数据中发现“知识规则”KDD（Knowledge Discover in Database），数据统计的重点是参数估计和假设检验。
“数据分析、数据统计”得出的结论是人的智力活动结果，“数据挖掘”得出的结论是机器从学习集（或训练集、样本集）发现的知识规则。
“数据分析”需要人工建模，“数据挖掘”自动完成数学建模，“数据统计”则是把模糊估计变得准确而定量。可以通过机器学习自动建立输入与输出的函数关系，根据KDD得出的“规则”，给定一组输入参数，就可以得出一组输出量。

举个简单的例子：

有一些人总是不及时向电信运营商缴费，如何发现它们？

数据分析：通过对附近人口的生活习惯、业余爱好、教育背景、收入分布、家庭组成等进行全方面分析，发现很多人都习惯在收到欠费通知以后再缴费。结论就是提前发放短信提醒。

数据挖掘：通过编写机器学习聚类算法发现无法通过观察图表得出的深层次原因。发现家住在五环以外的人，由于居住环境偏远没有时间上营业厅缴费。结论就需要多设立一些营业厅或者自助缴费点。

数据统计：通过统计学推理方法组成样本的试验单元进行参数估计和假设检验，我们发现不及时缴钱人群里的贫困人口占82%。所以结论是收入低的人往往会缴费不及时。结论就需要降低资费。

数据分析方法论是什么

作者：宿痕
链接：https://www.zhihu.com/question/25949022/answer/77616356
来源：知乎

重点包括两块，一块是统计分析方法论：描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等；

一块是营销管理常用分析方法论：SWOT、4P、PEST、SMART、5W2H、User behavior等。

一、统计分析方法论：

1.描述统计（Descriptive statistics）：描述统计是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征，找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

（1）数据的频数分析：在数据的预处理部分，我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外，频数分析也可以发现一些统计规律。比如说，收入低的被调查者用户满意度比收入高的被调查者高，或者女性的用户满意度比男性低等。不过这些规律只是表面的特征，在后面的分析中还要经过检验。

（2）数据的集中趋势分析：数据的集中趋势分析是用来反映数据的一般水平，常用的指标有平均值、中位数和众数等。各指标的具体意义如下：

平均值：是衡量数据的中心位置的重要指标，反映了一些数据必然性的特点，包括算术平均值、加权算术平均值、调和平均值和几何平均值。

中位数：是另外一种反映数据的中心位置的指标，其确定方法是将所有数据以由小到大的顺序排列，位于中央的数据值就是中位数。

众数：是指在数据中发生频率最高的数据值。

如果各个数据之间的差异程度较小，用平均值就有较好的代表性；而如果数据之间的差异程度较大，特别是有个别的极端值的情况，用中位数或众数有较好的代表性。

（3）数据的离散程度分析：数据的离散程度分析主要是用来反映数据之间的差异程度，常用的指标有方差和标准差。方差是标准差的平方，根据不同的数据类型有不同的计算方法。

（4）数据的分布：在统计分析中，通常要假设样本的分布属于正态分布，数据的正态性离群值检验，已知标准差Nair检验，未知标准差时，有Grubbs检验，Dixon检验，偏度-峰度法等。其中常用偏度-峰度法需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度；而峰度衡量的是样本分布曲线的尖峰程度。一般情况下，如果样本的偏度接近于0，而峰度接近于3，就可以判断总体的分布接近于正态分布。

（5）绘制统计图：用图形的形式来表达数据，比用文字表达更清晰、更简明。在SPSS软件里，可以很容易的绘制各个变量的统计图形，包括条形图、饼图和折线图等。

2.假设检验：是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是：根据问题的需要对所研究的总体作某种假设，记作H0；选取合适的统计量，这个统计量的选取要使得在假设H0成立时，其分布为已知；由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法，秩和检验等。

3.相关分析：相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。常见的有线性相关分析、偏相关分析和距离分析。相关分析与回归分析在实际应用中有密切关系。然而在回归分析中，所关心的是一个随机变量Y对另一个（或一组）随机变量X的依赖关系的函数形式。而在相关分析中，所讨论的变量的地位一样，分析侧重于随机变量之间的种种相关特征。例如，以X、Y分别记小学生的数学与语文成绩，感兴趣的是二者的关系如何，而不在于由X去预测Y。

4.方差分析(Analysis of Variance，简称ANOVA)：又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

5.回归分析：回归主要的种类有：线性回归，曲线回归，二元logistic回归，多元logistic回归。回归分析的应用是非常广泛的，统计软件包使各种回归方法计算十分方便。

一般来说，回归分析是通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好的拟合实测数据；如果能够很好的拟合，则可以根据自变量作进一步预测。

6.聚类分析：聚类主要解决的是在“物以类聚、人以群分”，比如以收入分群，高富帅VS矮丑穷；比如按职场分群，职场精英VS职场小白等等。

聚类的方法层出不穷，基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的：首先确定选择哪些指标对用户进行聚类；然后在选择的指标上计算用户彼此间的距离，距离的计算公式很多，最常用的就是直线距离（把选择的指标当作维度、用户在每个指标下都有相应的取值，可以看作多维空间中的一个点，用户彼此间的距离就可理解为两者之间的直线距离。）；最后聚类方法把彼此距离比较短的用户聚为一类，类与类之间的距离相对比较长。

常用的算法k-means、分层、FCM等。

7.判别分析：从已知的各种分类情况中总结规律（训练出判别函数），当新样品进入时，判断其与判别函数之间的相似程度（概率最大，距离最近，离差最小等判别准则）。

常用判别方法：最大似然法，距离判别法，Fisher判别法，Bayes判别法，逐步判别法等。

注意事项：

a. 判别分析的基本条件：分组类型在两组以上，解释变量必须是可测的；

b. 每个解释变量不能是其它解释变量的线性组合（比如出现多重共线性情况时，判别权重会出现问题）；

c. 各解释变量之间服从多元正态分布（不符合时，可使用Logistic回归替代），且各组解释变量的协方差矩阵相等（各组协方方差矩阵有显著差异时，判别函数不相同）。

相对而言，即使判别函数违反上述适用条件，也很稳健，对结果影响不大。

应用领域：对客户进行信用预测，寻找潜在客户（是否为消费者，公司是否成功，学生是否被录用等等），临床上用于鉴别诊断。

8.主成分与因子分析：主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，将变量表示成为各因子的线性组合，从而把一些具有错综复杂关系的变量归结为少数几个综合因子。（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）。

9.时间序列分析：经典的统计分析都假定数据序列具有独立性，而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成部分。例如，记录了某地区第一个月，第二个月，……，第N个月的降雨量，利用时间序列分析方法，可以对未来各月的雨量进行预报。

10.决策树(Decision Tree）：是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

常见的数据分析方法论大体的就是这些，结合案例多练习下基本上就明白是什么回事。

二、营销管理方法论：

1.SWOT：

如表1的小额信贷公司的SWOT分析：

2.4P：4P即产品、价格、促销、渠道；

3.PEST

如吉利收购沃尔沃例子

4.SMART

5.5W2H

6.User behavior

作者：何史提
链接：https://www.zhihu.com/question/25949022/answer/32764799
来源：知乎

PEST分析法：用于对宏观环境的分析，包括政治（political）、经济（economic）、社会（social）和技术（technological）四方面。
5W2H分析法：何因（Why）、何事（What）、何人（Who）、何时（When）、何地（Where）、如何就（How）、何价（How much）。
逻辑树分析法：把问题的所有子问题分层罗列。
4P营销理论：分析公司的整体营运情况，包括产品（product）、价格（price）、渠道（place）、促销（promotion）四大要素。
用户行为理论：主要用于网站流量分析，如回访者、新访者、流失率等，在众多指标中选择一些适用的。

作者：罗韧
链接：https://www.zhihu.com/question/19653226/answer/20531356
来源：知乎

实际工作中,数据分析的特点是: 对象已经远远不是底层数据;更偏宏观层面,经常需要与事件真实逻辑相互印证,重视与"常识"和"眼见"不一致的地方;要输出论点,整理成ppt,考虑更多的图文表达形式那是常有的.
数据挖掘:从最底层干起,没有平台资源解决底层问题一切玩完.底层数据处理成可用算法处理的数据,然后才是引入分词技术\词库\写算法\建模神马的.最后的输出一般能解决一个具体的问题。
数据统计:经常都是别人告知统计目的甚至口径需要非常清楚数据本身和各种工具.

posted @ 2016-02-13 02:00 Hand&Head 阅读(1377) 评论(0) 收藏举报

刷新页面返回顶部

Hand&Head