2013年10月23日

关键词提取TF-IDF算法

摘要: 原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词测试输入如下a 奥运 拳击 入场券 基本 分罄 邹市明 夺冠 对手 浮出 水面a 股民 要 清楚 自己 的 目的a 印花税 之 股民 四季a ASP.NET 自定义 控件 复杂 属性 声明 持久性 浅析a 运动员 行李 将 “后 上 先 下” 奥运 相关 人员 行李 实名制a asp.net 阅读全文

posted @ 2013-10-23 21:27 JimSow 阅读(798) 评论(0) 推荐(0)

中文分词算法笔记

摘要: 中文分词基本算法主要分类基于词典的方法、基于统计的方法、基于规则的方法、(传说中还有基于理解的-神经网络-专家系统,按下不表)1、基于词典的方法(字符串匹配,机械分词方法)定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想MM1》从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。2》查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作 阅读全文

posted @ 2013-10-23 21:02 JimSow 阅读(254) 评论(0) 推荐(0)

2013年10月5日

自然语言处理相关书籍及其他资源

摘要: 特别推荐:1、HMM学习最佳范例全文文档2、无约束最优化全文文档一、书籍:1、《自然语言处理综论》英文版第二版2、《统计自然语言处理基础》英文版3、《用Python进行自然语言处理》,NLTK配套书4、《Learning Python第三版》,Python入门经典书籍,详细而不厌其烦5、《自然语言处理中的模式识别》6、《EM算法及其扩展》7、《统计学习基础》8、《自然语言理解》英文版(似乎只有前9章)9、《Fundamentals of Speech Recognition》,质量不太好,不过第6章关于HMM的部分比较详细,作者之一便是Lawrence Rabiner;10、概率统计经典入门书 阅读全文

posted @ 2013-10-05 21:14 JimSow 阅读(267) 评论(0) 推荐(0)

2013年10月1日

正向最大匹配中文分词算法

摘要: 中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。 本篇文章主要介绍一下中文分词的一个最基础算法:最大匹配算法(Maximum Matching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。● 算法思想 正向最大匹配算法:从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。但这里有一个问题:要做到最大匹配,并不是第一次匹配到就可以切分的。我们... 阅读全文

posted @ 2013-10-01 10:47 JimSow 阅读(1307) 评论(0) 推荐(0)

2013年9月29日

学习 Web 开发技术的16个最佳教程网站和博客

摘要: 互联网经过这么多年的发展,已经出现了众多的 Web 开发技术,像 .Net/Java/PHP/Python/Ruby 等等。对于 Web 开发人员来说,不管是初学者还是有一定经验的开发人员都需要时刻学习新的开发技术。如今,网上有各种开发技术的相关网站,有大量开发资料可以参考。下面是我收集的15个非常优秀的学习 Web 开发技术的国外网站,如果大家有收藏更好的网站,欢迎推荐! Net Tuts+ 是学习Web开发技术最著名的网站之一,订阅者超过10万,分享各种适合不同阶段的开发人员阅读的优秀教程。 CSS Tricks CSS Tricks 是学习CSS的最佳去处,发布关于CSS各个... 阅读全文

posted @ 2013-09-29 21:40 JimSow 阅读(322) 评论(0) 推荐(0)

2013年9月24日

利用JDBC对数据库进行批量插入数据操作,执行次数100万

摘要: 版权:JavaIT学习室转载请标明,http://www.javait.org在学习Java的JDBC技术,如果想利用JDBC对数据库进行批量插入数据操作,执行次数100万。我们应该如何实现?我们还是直接将代码给大家呈现出来 1 package com.gxa.edu; 2 3 import javax.swing.JFrame; 4 import javax.swing.JButton; 5 import javax.swing.ImageIcon; 6 import javax.swing.JLabel; 7 import javax.swing.JTextArea; ... 阅读全文

posted @ 2013-09-24 18:41 JimSow 阅读(517) 评论(0) 推荐(0)

2013年9月23日

将会改变未来IT世界的十种编程语言

摘要: 这里要说的都是革新,说这些的目的就是要保持关注最新技术。如果你是一个程序员,想要探寻未来技术,那这篇文章就是你的必读之选。我们这里列出了10种编程语言,10种将会改变IT世界工作方式的编程语言。这些语言已经在开始改变IT界的景象。看看吧:Dart语言 这 种语言由谷歌制造,用来替代Javascript,弥补Javascript在web应用中大量使用时出现的缺点。对于Dart语言,谷歌的希望是,它将 成为web编程的新官方语言。它有着与C语言类似的语法和关键词。然而,一个跟Javascript的重大不同之处是,Javascript是以 prototype为基础的语言,可Dart里对象是用类和.. 阅读全文

posted @ 2013-09-23 10:36 JimSow 阅读(191) 评论(0) 推荐(1)

用来理解 Java 编程语言的 8 个图表

摘要: 很多时候,一张图比你说 1000 个字能更有效的说清楚一个问题。我们列举了 8 个关于 Java 语言的图表,或许可以让你对 Java 有着更深入的认识。 1.字符串不变性(String Immutability) 下面的图表显示执行如下两行代码所发生的事:123String s = "abcd"; 2 s = s.concat("ef"); 2.equals() 和 hashCode() HashCode 方法设计用来提升性能,hashCode 和 equals 之间的差异有: 1. 如果两个对象是 equal 的,那么他们必须有相同的 hashCod 阅读全文

posted @ 2013-09-23 10:23 JimSow 阅读(239) 评论(0) 推荐(1)

2013年9月21日

字符串匹配的Boyer-Moore算法

摘要: 上一篇文章,我介绍了KMP算法。 但是,它并不是效率最高的算法,实际采用并不多。各种文本编辑器的"查找"功能(Ctrl+F),大多采用Boyer-Moore算法。 Boyer-Moore算法不仅效率高,而且构思巧妙,容易理解。1977年,德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种算法。 下面,我根据Moore教授自己的例子来解释这种算法。 1. 假定字符串为"HERE IS A SIMPLE EXAMPLE",搜索词为"EXAMPLE"。 2. 首先,"字符串" 阅读全文

posted @ 2013-09-21 15:58 JimSow 阅读(143) 评论(0) 推荐(0)

字符串匹配的KMP算法

摘要: 字符串匹配是计算机的基本任务之一。 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"? 许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth。 这种算法不太容易理解,网上有很多解释,但读起来都很费劲。直到读到Jake Boxer的文章,我才真正理解这种算法。下面,我用自己的语言,试图写一篇比较好懂的KMP算法解释。 1. 首先,字符串"BBC ABCDAB 阅读全文

posted @ 2013-09-21 15:53 JimSow 阅读(94) 评论(0) 推荐(0)

导航