随着科技的进步,特别是计算机科学、互联网取得的巨大成功,我们正生活在一个信息量爆炸的时代。当今,在各个行业领域,如金融、医学、法律,每天都会有海量的数据产生,我们如何从海量数据中挖掘有用的知识,是大数据所探讨的核心问题。

谈及大数据,自然离不开数据挖掘的话题,甚至,可以说大数据的本质就是在海量的数据样本中实现数据挖掘。数据挖掘的目的是让计算机从数据中学习知识,挖掘数据的模式,这里说的模式通常是指描述性模式与预测性模式两种。描述性挖掘任务刻画目标数据中数据的一般性质,最典型的例子便是聚类;预测性挖掘任务是在当前数据上进行归纳,以便作出预测,如模式识别,医学临床诊断等。数据挖掘的概念出现于上世纪80年代,从其提出至今,在许多领域已取得卓越的成果,然而,科研工作者在研究中发现并指出,在数据样本不够充分的情况下,数据挖掘很难真正从数据中学到有价值的信息,最为知名的结论便是维度灾难与过拟合。受限于时代,上世纪80年代的科学水平、经济能力还不够发达,许多领域不能像今天这样产生海量的信息,数据挖掘只能在小样本的环境下实现。然而,随着各个学科的迅猛发展,社会已进入信息时代,每天,海量的数据都会被产生,如万维网上用户的浏览记录,医院的临床数据等。大数据为数据挖掘带来了前所未有的希望,海量的样本数据十分有利于数据挖掘从数据中发现有用知识。

然而,大数据时代数据量呈爆炸式地增长,如何让计算机有效的处理这些海量数据,从中发现有用知识,这又是大数据给数据挖掘带来的前所未有的挑战。有效合理的处理大数据,需要从数据分析算法与计算模式两个角度出发思考。数据分析算法上,机器学习领域的理论研究证明,传统的统计学习算法很难从大规模数据中获取有价值的信息,当前极为流行的深度学习,给数据分析注入了全新的血液,此外,集成学习、稀疏学习也是解决大数据问题有效的研究工具;计算模式上,由于数据量的增大,计算时间、内存资源的消耗也随之增加,单台计算机很难有效处理大规模数据,所以云计算、分布式系统在大数据时代受到了极大重视。

在医学领域,大数据的优势也十分明显。例如在医院的临床诊断中,每年都会积累规模十分庞大的体检数据,利用大数据分析的方法分析这些海量数据,可以获得某种疾病与各种诊断指标的关系,并设计临床诊断系统,让计算机根据病人的体检结果,预测病人的健康状况;可以根据病人在接受治疗后不同时期的体检结果分析某种药物是否有利于病人的康复;也可以分析膳食、气候、环境对人健康的影响,以帮助政府职能部门制定决策。大数据分析在医药学领域潜力巨大,值得深入研究与探讨。