由于公司mysql数据库编码改了,从latin1到utf-8, 所以打算把lucene搜索重写一下.

    关于java的编码问题相信不少人都困扰在此.尤其是要配在linux环境下.我以前就是搞的非常痛苦.看这里

现在换成utf-8,最适合java了,下面是几个原则,遵守了就没问题了:
将Java/J2EE系统的统一编码定义为UTF-8。UTF-8编码是一种兼容所有语言的编码方式,惟一比较麻烦的就是要找到应用系统的所有出入口,然后使用UTF-8去“结扎”它。

一个J2EE应用系统需要做下列几步工作:

开发和编译代码时指定字符集为UTF-8。JBuilder和Eclipse都可以在项目属性中设置。

使用过滤器,如果所有请求都经过一个Servlet控制分配器,那么使用Servlet的filter执行语句,将所有来自浏览器的请求(request)转换为UTF-8,因为浏览器发过来的请求包根据浏览器所在的操作系统编码,可能是各种形式编码。关键一句:


request.setCharacterEncoding("UTF-8")

网上有此filter的源码。

在JSP头部声明:

在Jsp的html代码中,声明UTF-8:

设定数据库连接方式是UTF-8。例如连接MYSQL时配置URL如下:

jdbc:mysql://localhost:3306/test?useUnicode=true
&characterEncoding=UTF-8

一般数据库都可以通过管理设置设定UTF-8。

其他和外界交互时能够设定编码时就设定UTF-8,例如读取文件,操作XML等。 

创建的索引的编码就是从数据库读出的数据的编码.

编码问题很快就解决了,可是分页出了点问题,导致我胡思乱想,假设了N种情况,后来发现,原来都是幻觉...算了,不说了.
 

    http://search.ci123.com/