随笔档案「2013年11月21日」：Daily Scrum 11.5 ... - IloveSE

2013年11月21日

摘要：我们已经确定了具体改进的方向和改进的具体实现措施。具体今天的进度：我们主要明确了重点的改进方向，还有一些细微的地方将在以后的实现过程中改进。1.分词算法分为两类：中文分词（中科院ICTCLAS算法）英文分词（朴素贝叶斯算法（与词库匹配））2.提取关键词的算法tf-idf算法。具体idf的计算方式还要进一步学习。3.数据库操作完善（排除冗余数据）4.增加机器翻译的工作。5.pdf的关键信息提取。明天要完成的事项：1.学习Web数据挖掘中关于朴素贝叶斯算法的部分。（杨军）2.下载中科院ICTCLAS的分词包，进行试验，观察分词效果。（杨军，柴泽华）3.熟悉tf-idf算法。（柴泽华）4.研究C#操阅读全文

posted @ 2013-11-21 02:34 IloveSE 阅读(191) 评论(0) 推荐(0)