shirley_cst

博观而约取,厚积而薄发;淡泊以明志,宁静以致远。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2012年11月2日

摘要: 参考资料http://hadoop.apache.org/docs/r0.19.2/cn/streaming.html#%E4%B8%BA%E4%BD%9C%E4%B8%9A%E6%8C%87%E5%AE%9A%E9%99%84%E5%8A%A0%E9%85%8D%E7%BD%AE%E5%8F%82%E6%95%B0http://10.12.139.120:8080/hadoop/streaming.html 阅读全文

posted @ 2012-11-02 20:00 shirley_cst 阅读(112) 评论(0) 推荐(0)

2012年11月1日

摘要: 元字符(metacharacter)\b 代表单词的开头或结尾,即单词的分界处。\b不匹配空格、换行、标点符号等任意分隔符,只匹配一个位置。^ 匹配开始位置。$ 匹配结束位置。. 匹配除了换行符以外的任意字符。\s 匹配任意空白符,包括:空格、制表符(Tab)、换行符、中文全角空格等。\w 匹配字母、数字、下划线、汉字等。\d 匹配一位数字(0到9)。字符转义\ 查找元字符时用\进行转义,例如:www\.baidu\.com表示查找www.baidu.com,C:\\windows表示查找"C:\windows"。重复 * 重复任意次 + 重复至少一次 ? 重复0次或1次. 阅读全文

posted @ 2012-11-01 22:05 shirley_cst 阅读(161) 评论(0) 推荐(0)

2012年10月30日

摘要: 1. 书单计划2. GitHub3. StackOverflowhttp://www.oschina.net/news/22933/how-to-interview-a-person-for-two-years 阅读全文

posted @ 2012-10-30 10:52 shirley_cst 阅读(110) 评论(0) 推荐(0)

2012年10月26日

摘要: 一般流程 1. 线下:字符串/信息 --> ID --> docid'\t'termid1,value1'\t'termid2,value2...... 2. 线上:计算 3. 线下:结果的ID表示 --> 结果的可视化表示 阅读全文

posted @ 2012-10-26 11:04 shirley_cst 阅读(134) 评论(0) 推荐(0)

2012年10月23日

摘要: Introduction:简介 Wikipedia:http://en.wikipedia.org/wiki/Clustering_high-dimensional_data [paper] The Challenges of Clustering High Dimensional Data:http://www-users.cs.umn.edu/~kumar/papers/high_dim_clustering_19.pdfSpectral Clustering:谱聚类 Wikipedia: http://en.wikipedia.org/wiki/Spectral_clusterin... 阅读全文

posted @ 2012-10-23 15:23 shirley_cst 阅读(365) 评论(0) 推荐(0)

摘要: 参考资料:1. 《数据挖掘:概念与技术》第6章:挖掘频繁模式、关联和相关性:基本概念和方法2. 《大数据:互联网大规模数据挖掘与分布式处理》第6章:频繁项集3. Stanford cs246:http://www.stanford.edu/class/cs246/slides/02-assocrules.pdf 阅读全文

posted @ 2012-10-23 09:14 shirley_cst 阅读(162) 评论(0) 推荐(0)

2012年10月18日

摘要: 简介: Wikipedia: http://en.wikipedia.org/wiki/Cluster_analysis Review: 1. Data clustering: a review http://eprints.iisc.ernet.in/273/01/p264-jain.pdf 2. Subspace clustering for high dimensional data: a review http://scholar.google.com/citations?view_op=view_citation&hl=en&user=PKiPYEwAAAAJ... 阅读全文

posted @ 2012-10-18 10:51 shirley_cst 阅读(644) 评论(0) 推荐(1)

2012年10月17日

摘要: 目的估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量。评价方法一、估计聚类趋势二、确定数据集中的簇数 1. 经验方法 2. 肘方法 3. 使用信息准则或信息论的方法 4. 交叉验证三、测定聚类质量 1. 外在方法 2. 内在方法 1. 凝聚度(cohesion) $\text{cohesion}(C_i) = \sum_{x \in C_i, y \in C_i} \text{dist}(x, y)$ 2. 分离度(separation) $\text{separation}(C_i, C_j) = \sum_{x \in C_i, y \in C... 阅读全文

posted @ 2012-10-17 10:42 shirley_cst 阅读(577) 评论(0) 推荐(0)

2012年10月11日

摘要: LECTURE/COURSE机器学习(Machine Learning)1. 资源: (1) 斯坦福大学公开课-机器学习-Andrew Ng http://cs229.stanford.edu/ https://www.coursera.org/course/ml http://v.163.com/special/opencourse/machinelearning.html (2) 清华大学-本科生课程-机器学习-张敏 (3) 清华大学-研究生课程-高级机器学习-唐杰&朱军:http://arnetminer.org/mlcourse2012数据挖掘(Data Min... 阅读全文

posted @ 2012-10-11 09:33 shirley_cst 阅读(690) 评论(0) 推荐(0)

2012年10月10日

摘要: 聚类文本预处理1.DVM_Data_Preprocess_script:keyad.sh2.DVM_Data_Preprocess_script/sort_DocTriple: sort_DocTriple3.Cal_cluster2cluster_similarity_hadoop:hadoop_cal_cpp.sh、cal_cluster2cluter_similarity4. HC-FN:/HC-FN 3203464 0.90 ../corpus/d20120916_all/valid_keyad.DOCINFO ../corpus/d20120916_all/hc.doc2doc.si 阅读全文

posted @ 2012-10-10 11:21 shirley_cst 阅读(317) 评论(0) 推荐(0)