NWU WEB数据挖掘重点
web 数据挖掘
第一章
数据挖掘: 数据库知识发现,通常是指从数据源中探寻有用的模式或者知识的过程。
步骤 :预处理,数据挖掘,后续处理。
预处理: 数据不能直接用来挖掘,有噪声,需经过过滤。其次,会包含不相干的属性,需要通过采样来降低数据量。
web数据挖掘:从web的超链接结构,网页内容和使用日志中探寻有用的信息。
web数据挖掘的三种类型:web结构挖掘,web内容挖掘,web使用挖掘。
第二章
关联规则:是数据中所蕴涵的一类重要的规律,是一个X-> Y这样的蕴含关系。
支持度和置信度是衡量规则强度的两个指标。
支持度:计算(X- Y)的数量 / 总的数量,置信度计算 (X - Y)的数量 / X的数量。、
Apirio算法
第三章
监督学习: 学习的数据带有标签和属性来进行分类等。
评估方法: 留出法,交叉验证,多次随机采样。
查准率,查全率,调和平均值F-score = 2pr / (p + r)。
roc曲线:roc曲线下的面积,越大分类器越好。 横轴是 TPR = TP / (TP + FN),纵轴是 FPR = FP / (TN + FP)。
提升曲线与标准线之间的面积越大,分类器越好.
分类器集成的步骤,bagging和boosting
贝叶斯:
kNN:
SVM:
决策树:
第四章
K-means的步骤:首先选K个样本点,作为原始的种子聚类中心,然后每次对每个数据点,标记和他最近的聚类中心,等所有的数据都分完,在重新计算聚类中心,然后再重复上面这个过程,直到误差平方和最小,误差通过样本的距离来表示。终止的条件: 没用数据点被重新分配给不同的聚类,聚类中心点不变话,局部误差平方和最小。
距离计算的方式: 曼哈顿距离,欧氏距离,加权欧式距离,切比雪夫距离
第六章
信息检索:是研究如何让帮助用户找到与他们需求信息相匹配的资料。
倒序索引:<id_j, f_ij,,[o_1,o_2,……,出现的位置]>
两种作弊:内容作弊和链接作弊。spamming:作弊
内容作弊:利用修改HTML页面中的文本内容的方法使得垃圾网页和用户查询变得更加相关。通过重复一些重要词,大量添加其他不相关的词。
链接作弊:在页面中加一个对链出连接到权威页面中,从而增加一个页面的中心程度。
第七章
社会网络分析: web可以看做成一个虚拟的社会,在这个虚拟的社会关系中,每张网页可以被看做一个参与者,而每个超链接这可以被看作成是一个关系。
中心性:(Degree Centrality)
-
度中心性:中心参与者是拥有与其他参议者的链接或者链接数目最多,最活跃的参与者。
无向图:度数/节点数减一,有向图:出度/节点数减一。
-
接近中心性 :基于距离或者接近度,基本的想法是如果一个参与者能够很容易的与所有参与者进行互动。
节点数减一/(所有节点到i节点的最短距离)、、
-
中介中心性:中介中心性用来度量i对于其他节点对的控制能力。Pjk表示参与者j和k之间的最短路径的数目。
权威性:
- 度权威:考察入度,如果一个参与者有许多的链入链接或者说被很多其他的参与者所推荐。P = 入度/节点数减一
- 邻近权威:基于距离的考察,P = i到j的距离的和/能到达i的集合的大小。
- 等级权威:考虑每个节点的选择权和投票权,是一个线性的组合。
同引分析(Co-Citation):如果同时引用他们两的论文越多则说明他们两的关系越紧密。
Cij = 西格玛k=1 到N 中 Lki * Lkj
引文耦合(Bibliographic Coupling): 被i和j两篇论文引用的的文章越多,则他们之间的相似度就越高
PageRank算法:度中心性和等级权威。
优:防作弊的能力强,离线的处理,从全局出发的度量,效率高。
缺:不能分辨网页在广泛意义上的还是再特定的查询话题上是权威的。
通过计算权威值得迭代得过程,直至每个节点得权威值收敛,P(i) = (1 - d) + d * 西格玛 j 0~n Aji * P(i);d为衰减系数.A是概率矩阵.
Hit算法:
优点:根据搜索内容来为网页评级,提供更加相关得权威页和中心页。
缺点:反作弊能力不强,话题漂移问题,计算时间长,效率低。
第八章
WEB爬虫框架
爬虫道德:爬虫礼节:爬虫阻止协议:是一个robots.txt的文件
第九章
DP 【i】【0】 = 1,2,3,4,……
DP 【0】【j】= 1,2,3,4……
DP 【i】【j】 = min(dp(i - 1)(j - 1) + p(s1[i],s2[j]),dp(i - 1)(j) + 1,dp(i)(j - 1) + 1);
中星方法:
第十章
集成多个查询界面:为用户提供一个全局查询界面。
重要的特点:
- 有限使用缩写词汇。
- 有限的词汇
- 大量相似的数据库
- 附加的结构
构建统一查询的特点:
- 结构恰当;
- 词汇恰当
- 实例恰当
第十一章
观点挖掘(情感分析):针对实体、个人、问题、事件、主题和他们的属性,分析人们的观点、评价、态度和情感。
观点挖掘即针对实体、个人、问题、事件、主题和他们的属性,分析人们的观点、评价、态度和情感。
- 文档层次:情感分类是把一个含有观点的文本分为正面、负面或其他情感,他把整个文本作为基本信息单元。
- 句子层次:把一个句子分为主观或客观的任务,得到的主观性句子又可以分为表达正面或负面的观点。
- 属性层次:针对某个属性,进行观点的分析。
第十二章
web使用挖掘的三个步骤:数据的收集和预处理、模式发现和模式分析。
web数据的来源:服务器日志文件,web服务器访问日志和应用服务日志。还用网站数据和元数据用户统计数据。
数据类型一共有4中分别是:
- 使用记录数据:web和应用服务器的日志数据反映了访问者的浏览行为。
- 内容数据:一个站点的内容数据式已传送给用户的对象和关系集合。
- 结构数据:展示了以设计者的角度所看到的网站的内容组织结构。
- 用户数据:网站的操作数据库可能包含用户模型数据。
协同过滤算法:基于KNN的协同过滤的方法由两个阶段组成,邻居形成阶段和推荐阶段。是基于用户的。
邻居形成:通过目标用户的活动记录和其他用户的历史记录进行比较从而找到与该目标有相似风格的前k个用户。
推荐阶段:k个相似的用户的集合,然后对项目进行评分,根据根据用户相似度的加权和相似用户的偏好进行打分,再选择评分最高的推荐给该用户。
基于物品的协同过滤:先计算物品之间的相似度,然后根据物品的相似度和用户的历史行为生成推荐列表。

浙公网安备 33010602011771号