数据挖掘理论与算法,随笔2

资源:b站

一、隐私保护

现在,互联网上隐私是一个非常严重的问题。

隐私保护的数据挖掘是一个方兴未艾的研究领域。

因为我们都要去获取数据,但是怎么样才能既保护数据的隐私又能获得我们需要的数据?我们不能用常规的调查问卷收数据,如何设计调查问卷是个有趣的问题。

比如调查是否吸过大麻,一种方式是:问题”你吸过大麻吗?“,选择为”yes“or”no“,这种方式大家都会选“no”。另一种方式是设计两个问题:Q1:你吸过大麻,Q2:你没吸过大麻。受访者只需要回答一个问题。我们采取随机的概率,比如30%的人回答Q1,剩余70%的人回答Q2,因为受访者是随机回答问题的,所以收集者并不知道具体的人回答哪个问题,即不知道具体某个人吸没吸过大麻,做到了保护受访者的隐私。

这就是巧妙的设计问题,既可以得到想要得到的信息,又可以保护采访者的隐私。

二、云计算

云计算:把计算当作一种资源,我不会自己去买一台服务器,而是从计算提供商那里“租”,他可以随时调整资源的利用率。(用就付钱,不用就不付钱。)

三、并行计算

问题切分,分配到不同处理器。

 

 四、从宏观上看数据挖掘

数据+模型/公式/算法+高性能的计算/超级计算平台,把这三个因素融合在一起,进行挖掘,才可以找到数据的金矿。

集成平台很重要,没有它数据根本跑不动。

五、一些case

1、股票:

 

 Q:能不能用数据挖掘方法预测股市

分析知道今天昨天前天某只股的价格,能不能知道这只股明天的价格。很困难,基本不可能,股票受影响的条件太多,预测明天的股价首先需要预测这些条件,很困难。

预测一些宏观上的东西,比如股票会受什么条件影响这个是可以的,但是预测短期的一些东西比如明天的股价,这个是很困难的。

2、彩票

 

 Q:能不能预测彩票的中奖号码

不能,没有规律。

数据挖掘要有规律可以挖掘,数据挖掘不是创造规律,底层数据根本没有规律那什么都挖不出来。

 

posted @ 2022-12-11 20:12  奋发图强的小赵  阅读(64)  评论(0)    收藏  举报