摘要: TF-IDF(term frequency–inverse document frequency)这是一种用于信息检索的一种常用加权技术。它是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率(DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件 阅读全文
posted @ 2012-12-05 21:01 simba工作室 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 序号著作或期刊名称作者或出版者适用对象及要求 1An Introduction to Corpus Linguistics(语料库语言学入门)Graeme Kennedy硕士必读 2Aspects of the Theory of Syntax(语法理论方面)Chomsky硕士选读 3Comprehension: A Paradigm for Cognition(理解: 一个 范式 的 认知)Kintsch博士选读 4Computational Linguistics(计算 语言学)The Association for Computational Linguistics硕士选读博士必读 5C 阅读全文
posted @ 2012-12-05 20:46 simba工作室 阅读(485) 评论(0) 推荐(0) 编辑
摘要: 最近把一些在网上见到的自然语言处理的资源整理了一下,包括论文列表、软件资源和一些实验室主页、个人主页等,希望能对NLP研究者有所帮助,由于个人视野有限,目前只整理了这些,以后会持续更新。在此也感谢这些资源的提供者和维护者。转载请标明出处(http://blog.csdn.net/xuh5156/article/details/7437475)论文、博客1.Google在研究博客中总结了他们2011年的精彩论文《Excellent Papers for 2011》,包括社会网络、机器学习、人机交互、信息检索、自然语言处理、多媒体、系统等各个领域,很精彩的论文集锦。http://googleres 阅读全文
posted @ 2012-12-05 20:44 simba工作室 阅读(309) 评论(0) 推荐(0) 编辑
摘要: Computer Science计算机科学及工程Harvard UniversityIntroduction to Computer Science 2010 (计算机科学导论)【字幕】Understanding Computers and the Internet 2005(计算机及互联网 2005)Understanding Computers and the Internet 2006(计算机及互联网 2006)UC BerkeleyThe Structure and Interpretation of Computer Programs (计算机程序的结构与说明)Operating S 阅读全文
posted @ 2012-12-04 16:50 simba工作室 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 这里汇总整理了18本自然语言处理与计算语言学的相关书籍介绍,按国外书籍(1~4),国内书籍(5~18),其中国内书籍又按自然语言处理(5~9),计算语言学(10~13),中文信息处理(14~17),文选(18)顺序整理,如果有遗漏,欢迎补充!1、 Speech and Language Processinga) 作者: Daniel Jurafsky / James H. Martinb) 副标题: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognitionc) 阅读全文
posted @ 2012-12-04 16:20 simba工作室 阅读(376) 评论(0) 推荐(0) 编辑