随笔列表第4页 - _Clarence

随手写了几个排序

摘要：花了差不多一个小时，堆排还有点不好使，有待改正；#include <iostream>#include <stdlib.h>#include <time.h>const int maxn = 20;using namespace std;int A[maxn];void insertSort() //直接插入排序；{ int tmp,i,j; for (i = 1;i < maxn; i++ ) { tmp = A[i]; for (j = i-1 ; j >= 0 && A[j] > tmp; j--) { i... 阅读全文

posted @ 2012-05-16 21:20 _Clarence 阅读(99) 评论(0) 推荐(0) 编辑

双数组分词实现的一点建议

摘要：最近完成了双数组的中文分词，分词速度还行，正确率依赖于自己构建的字典。看了很多论文，国内的论文大多是千篇一律，你抄我，我抄你的。关于我对双数组的理解，我推荐中科院的一篇论文，名字叫双数组Trie优化算法及其应用研究，希望对大家有用。阅读全文

posted @ 2012-05-05 18:17 _Clarence 阅读(112) 评论(0) 推荐(0) 编辑

基于双数组Trie（Double-Array Trie）的词典查询算法

摘要：一、基本构造Trie树是搜索树的一种，来自英文单词"Retrieval"的简写，可以建立有效的数据检索组织结构，是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机（DFA），每个节点代表自动机的一个状态。在词典中这此状态包括＂词前缀＂，＂已成词＂等。双数组Trie（Double-Array Trie）是trie树的一个简单而有效的实现，由两个整数数组构成，一个是base[]，另一个是check[]。设数组下标为i ,如果base[i],check[i]均为0,表示该位置为空。如果base[i]为负值，表示该状态为词语。Check[i]表示该状态的前阅读全文

posted @ 2012-03-27 16:41 _Clarence 阅读(598) 评论(0) 推荐(0) 编辑

ACM PKU 3067 Japan

摘要：树状数组的题，很简单，只是我做了一下午，哈哈！都是因为好久没有写代码了，这是个多组测试数据的题，初始化得注意点；树状数组的思想很简单，先排序，然后找交叉点，交叉点的数目等于A数组相对于x位置右边的sum值。#include <iostream>#include <algorithm>#include <cstring>#include <stdio.h>using namespace std;struct node { int e,w;} tmp[1000010];long long A[1005];int MAX_N;bool operator 阅读全文

posted @ 2012-03-24 16:59 _Clarence 阅读(117) 评论(0) 推荐(0) 编辑

计算一年中的一天是星期几

摘要： #include <stdio.h>char * name[]= {"Monday","Tuesday","Wednesday","Thursday","Friday","Saturday","Sunday"};int main(){ int d,m,y,a; printf("Day: "); scanf("%d",&d); printf("Month: "); scanf(& 阅读全文

posted @ 2012-03-24 14:15 _Clarence 阅读(185) 评论(0) 推荐(0) 编辑

中文分词十年回顾结论黄昌宁

摘要：十年来,尤其是2003 年Bakeoff 分词评测开展以来,中文分词技术获得了长足的进步。其主要表现为: (1) 通过“分词规范+ 词表+ 分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2) 基于手工规则的分词方法在评测中不敌统计学习方法; (3) 在Bakeoff 数据上的估算表明,未登录词造成的分词精度失落至少比分词歧义大5 倍以上; (4) 因此能够大幅度提高未登录词识别性能的分词方法必将带动分词系统整体性能的提升。基于字标注的统计学习方法正是在这种背景下崭露头角的。Bakeoff 评测数据证明,这种基于字标注的分词系统优于以往的阅读全文

posted @ 2012-03-21 19:33 _Clarence 阅读(255) 评论(0) 推荐(0) 编辑

Eclipse中编译Nutch-1.0

摘要：这次试验是关于Nutch网页抓取的，做了很长时间，也失败N多回，但是我必须通过这关才能继续学Luence，所以我一个人坚持三天了。苦心人天不负，终于还是让我完成了这个试验。一个权威的文档包含了所有的过程，找到它真的是相见恨晚。Eclipse中编译Nutch-1.0 请到http://download.csdn.net/detail/las_vegas/4140727下载。另外，还有jid3lib-0.5.1.jar，rtf-parser.jar，nutch-1.0.tar.gz，cygwin等相关软件，貌似nutch-1.0比较稀有，这里我给大家一个下载地址http://apache... 阅读全文

posted @ 2012-03-14 19:11 _Clarence 阅读(284) 评论(0) 推荐(0) 编辑

一个简单关于Berkeley DB的读写问题

摘要： import java.io.*;import com.sleepycat.je.*;import com.sleepycat.bind.tuple.*;public class BD { /** * @param args */ public void writer() { try { // 配置环境 EnvironmentConfig envConfig = new EnvironmentConfig(); // 设置配置事务 envConfig.setTransactional(true); // 如果不存在就创建环境 envConfig.setAllow... 阅读全文

posted @ 2012-03-03 16:51 _Clarence 阅读(331) 评论(0) 推荐(0) 编辑

我的第一个web spider，在处理链接的时候有点小问题

摘要： import java.util.*;import java.util.regex.Matcher;import java.util.regex.Pattern;import java.net.*;import java.io.*;public class Crawler { /** * @param args */ ArrayList unVisitedURL = new ArrayList(); HashSet VisitedURL = new HashSet(); public String downloadURL(String url) { try { URL page... 阅读全文

posted @ 2012-03-03 16:49 _Clarence 阅读(127) 评论(0) 推荐(0) 编辑

编辑距离

摘要：今天看自然语言处理的书籍看到有一个编辑距离的概念，看样子还有点用，就随便写了一下代码。其实这个概念跟做ACM里面的LCS差不多，如果LCS理解透彻的话这个问题几分钟就能敲出来。这是一个DP问题，状态转移方程如下图所示：C++代码：#include <iostream>#include <cstring>const int maxn = 55;using namespace std;void calc(string t,string s) //代码很简单，都是按照公式来的，初始化注意一下就OK！{ int lent=t.length(),lens=s.length(); 阅读全文

posted @ 2011-11-16 20:12 _Clarence 阅读(183) 评论(0) 推荐(0) 编辑