06 2014 档案
摘要:Java判断一个字符串是否有中文一般情况是利用Unicode编码(CJK统一汉字的编码区间:0x4e00–0x9fbb)的正则来做判断,但是其实这个区间来判断中文不是非常精确,因为有些中文的标点符号比如:,。等等是不能识别的。以下是比较完善的判断方法:CharUtil.javahttp://www....
阅读全文
摘要:以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版对于这次研究的unicode把编码分为以下几个平面(英...
阅读全文
摘要:网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下:1234finalWebClient webClient=newWebClient();finalHtmlPage page=webClient.getPage("...
阅读全文

浙公网安备 33010602011771号