shirley_cst

博观而约取,厚积而薄发;淡泊以明志,宁静以致远。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2012年10月9日

摘要: Linux命令svn revert file:对file作了一些修改,但未提交;此命令可以使file回到未修改前的状态,即撤销未被提交的修改。svn mv file1 file2:可以用来重命名/移动文件,相当于svn cp file1 file2; svn del file1; svn add file2。svn diff file:比较指定文件当前工作目录下的修改与svn上最新版本的差异。不指定file则比较当前目录下的所有文件与svn上最新版本的差异。 阅读全文

posted @ 2012-10-09 15:41 shirley_cst 阅读(129) 评论(0) 推荐(0)

摘要: 需要做的工作:1. 构建停用词词表并进行过滤2. 构建词袋模型(建倒排表)(1) 建立后需要保存到硬盘,使用时再从硬盘载入.原因:词袋模型的建立需要占用大量的内存,运行时间也较长,不适合多次运行.建立倒排表 --> 将倒排表写入倒排索引文件 --> 从倒排索引文件加载倒排表(2) 需要制订合适的保存结构,一种比较好的方式为:词i的text,词i的TF,(文档j的编号,词i在文档j中的DF)3. 建立VSM(向量空间模型)(1) maxTF, DF; (2) 归一化 阅读全文

posted @ 2012-10-09 14:32 shirley_cst 阅读(169) 评论(0) 推荐(0)