7月20日下一步工作

1、6类数据的导入和处理

2、层次聚类和kmeans 的具体理解,包括

    (1)如何降维,仅仅靠tf-idf吗,除此以外还有没有别的方法?

    (2)对层次聚类中每种参数和变量的设置,探讨其对结果的影响,选出最优的参数设置,并写成报告;对其绘图的思考。

    (3)对kmeans方法的参数和变量的设置,如何将相关的term画到一起。

3、LDA方法的研究。

4、本体距离的计算公式。

4、最终报告的撰写。

posted @ 2012-07-20 13:31  todoit  阅读(163)  评论(0编辑  收藏  举报