百度业务运营部_数据分析师(产品运营)岗位要求详解(1)
业务运营部_数据分析师(产品运营)
所属部门: 百度 工作地点: 北京市 招聘人数: 若干公 司: 百度 职位类别: 产品 发布时间: 2016-04-11
工作职责:
-对百度重点行业的行业现状、核心企业、市场动态、发展趋势、互联网营销推广等做深入分析,形成数据研究报告
-解读分析报告,并根据分析结论,与运营一起商讨运营策略
-运用数据分析手段,对百度的客户行业和属性形成自己的分类方式
职责要求:
-大三或者研一、研二在校生,数学、计算机或者统计学专业,对行业市场有一定的了解
-理解统计学和数据挖掘算法原理,了解数据仓库思想,会写SQL,熟悉spss、sas,R等数据挖掘软件之一
-熟练使用EXCEL,能够处理大量的数据
-了解决策树、聚类、逻辑回归,关联分析、SVM,贝叶斯等数据挖掘算法
-能够保证每周至少四个工作日的实习时间
重点解析这个岗位中职责要求里的重点技术要求:
-理解统计学和数据挖掘算法原理,了解数据仓库思想,会写SQL,熟悉spss、sas,R等数据挖掘软件之一
-熟练使用EXCEL,能够处理大量的数据
-了解决策树、聚类、逻辑回归,关联分析、SVM,贝叶斯等数据挖掘算法
提取其中的关键词:统计学、数据挖掘算法、数据仓库、SQL、SPSS、SAS、R、excel、决策树、聚类、逻辑回归、关联分析、SVM、贝叶斯,然后大致的分类:
一、 数据挖掘算法: (百科:
** 数据挖掘: ** 是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
** 数据挖掘算法: ** 是根据数据创建数据挖掘
算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后,这些参数应用于整个
** 数据挖掘十大算法 **
概念补充:
决策树算法: 决策树(Decision Tree) 是在已知各种情况发生概率的
** 1 )C4.5 (分类算法) **
C4.5 是一个
C4.5 算法优点:产生的分类易于理解,准确率高;
缺点:a) 构造树过程中,需对数据集进行多次的顺序扫描和排序,导致算法低效;
b )只适合于能够驻留于内存的数据集,当数据集大得无法再内存中容纳时,程序无法运行。
** 2 )CART (Classificationand Regression Tree,分类与回归树) (分类算法) **
CART 也是一种
** 3 )KNN(K Nearest Neighbours ,K最邻近) (分类算法) **
从训练样本中找出K 个与其最相近的样本,是Top-K个训练样本出来,看这K个样本中哪个类别的多些,则待判定的值(或:抽样)就属于这个类别。
缺点:a)K 值需要预先设定,不能自适应;
b) 当样本不平衡时,如某个类的样本容量很大,而其他类样本量小时,可能导致输入的新样本的K 个邻居中大容量的样本占多数。
该算法适用于样本容量较大的类域进行自动分类。
** 4 )Naive Bayes( 朴素贝叶斯NB) (分类算法) **
是基于贝叶斯定理和特征条件独立假设的分类方法。它的基础是概率问题。分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即:该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
** 5 )Support Vector Machine( 支持向量机SVM) (统计学习算法) **
SVM 是基于分类边界的方法。就是想找一个分类得最” 好”的分类线/分类面(最近的一些两类样本到这个”线”的距离最远),将空间中的点按其分类聚集在不同的区域。常用的工具包是LibSVM、SVMLight、MySVM。
原理:将低维空间的点映射到高维空间,使它们成为线性可分,再使用线性划分原理来判断分类边界。
** 6 )EM( 期望最大化) (统计学习算法) **
基于模型的聚类方法,在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。例如:假设数据是由几个
优点:计算结果稳定、准确;
缺点:计算复杂、收敛慢,不适合大规模计算。
** 7 )Apriori (关联分析) **
一种挖掘关联规则的算法,用于挖掘其内含的、未知的却又实际存在的数据关系。不知道为什么,一提高关联规则我就想到购物篮数据。核心:基于两阶段频集思想的递推算法。
两个阶段:a )寻找频繁项集;(支持度)
b )由频繁项集找出关联规则。(可信度)
缺点:a )在每一步产生候选项集时,循环产生的组合过多,没有排除不应参与组合的元素;
b )每次计算项集的支持度时,都对数据库的全部记录进行了一遍扫描比较,需要很大的I/O 负载。
** 8 )PageRank (数据挖掘) **
是GOOGLE 的页面排序算法,基于从许多优质的网页链接过来的网页,必定是优质网页的回归关系,来判定网页的重要性。例如:如果我指向你(网页间的连接)则表示我承认你,则在计算你的重要性的时候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承认多少个人)。通过反复这样来,可以求的一个稳定的衡量各个人(网页)重要性的值。不过这里必须要做些限制(一个人的开始默认重要性都是1),不然那些值会越来越大越来越大。
优点:完全独立于查询,只依赖于网页链接结构,可离线计算;
缺点:a )忽略了网页搜索的时效性;
b )旧网页的排序高、存在时间长,积累了大量的in-links ,拥有新资讯的新网页排名第,几乎无in-links。
** 9 )K-Means (聚类) **
K-Means 是一种最经典也是使用最广泛的聚类方法,时至今日扔然有很多基于其的改进模型提出。K-Means 的思想很简单,对于一个聚类任务,首先随机选择K个簇中心,然后反复计算下面的过程直到所有簇中心不改变(簇集合不改变)为止:
步骤1 :对于每个对象,计算其与每个簇中心的相似度,把其归入与其最相似的那个簇中。
步骤2 :更新簇中心,新的簇中心通过计算所有属于该簇的对象的
k-means 算法的工作过程说明如下:首先从n 个数据对象任意选择k 个对象作为初始
** 10 )AdaBoost (袋装与分类) **
AdaBoost 做分类的一般知道,它是一种boosting 方法。这个不能说是一种算法,应该是一种方法,因为它可以建立在任何一种分类算法上,可以是
Adaboost 是一种迭代算法,其核心思想是针对同一个训练集训练不同的
浙公网安备 33010602011771号