数据挖掘理论与算法，随笔2

资源：b站

一、隐私保护

现在，互联网上隐私是一个非常严重的问题。

隐私保护的数据挖掘是一个方兴未艾的研究领域。

因为我们都要去获取数据，但是怎么样才能既保护数据的隐私又能获得我们需要的数据？我们不能用常规的调查问卷收数据，如何设计调查问卷是个有趣的问题。

比如调查是否吸过大麻，一种方式是：问题”你吸过大麻吗？“，选择为”yes“or”no“,这种方式大家都会选“no”。另一种方式是设计两个问题：Q1：你吸过大麻，Q2：你没吸过大麻。受访者只需要回答一个问题。我们采取随机的概率，比如30%的人回答Q1，剩余70%的人回答Q2，因为受访者是随机回答问题的，所以收集者并不知道具体的人回答哪个问题，即不知道具体某个人吸没吸过大麻，做到了保护受访者的隐私。

这就是巧妙的设计问题，既可以得到想要得到的信息，又可以保护采访者的隐私。

二、云计算

云计算：把计算当作一种资源，我不会自己去买一台服务器，而是从计算提供商那里“租”，他可以随时调整资源的利用率。（用就付钱，不用就不付钱。）

三、并行计算

问题切分，分配到不同处理器。

四、从宏观上看数据挖掘

数据+模型/公式/算法+高性能的计算/超级计算平台，把这三个因素融合在一起，进行挖掘，才可以找到数据的金矿。

集成平台很重要，没有它数据根本跑不动。

五、一些case

1、股票：

Q：能不能用数据挖掘方法预测股市

分析知道今天昨天前天某只股的价格，能不能知道这只股明天的价格。很困难，基本不可能，股票受影响的条件太多，预测明天的股价首先需要预测这些条件，很困难。

预测一些宏观上的东西，比如股票会受什么条件影响这个是可以的，但是预测短期的一些东西比如明天的股价，这个是很困难的。

2、彩票

Q：能不能预测彩票的中奖号码

不能，没有规律。

数据挖掘要有规律可以挖掘，数据挖掘不是创造规律，底层数据根本没有规律那什么都挖不出来。

posted @ 2022-12-11 20:12 奋发图强的小赵阅读(78) 评论(0) 收藏举报

刷新页面返回顶部

数据挖掘理论与算法，随笔2

公告