2012 年 9月随笔档案 - AndyDHG

用java写的TrieTree

摘要：用java写的trie tree主要是在写spider的时候，需要存储解析出的网页的url，判断是否已经处理过或已经加入等待处理的url队列，避免出现网页的url出现循环，使用trietree的最大的有点就是节约存储空间；包括两个方法：一是find，查找相应的string是否已经出现过；二是add，把不存在的string加入到TrieTree。下面是源代码： 1 package com.base; 2 3 class TrieTreeNode{ 4 public String str=null; 5 Object[] children=new Object[128]; 6 }... 阅读全文

posted @ 2012-09-18 10:44 AndyDHG 阅读(276) 评论(0) 推荐(0)

解决java用url中读取html源码时的乱码问题

摘要：1、主要应用getContentType获取相应的网页编码方式：pageUrl=new URL(urlString);HttpURLConnection uc = (HttpURLConnection) pageUrl.openConnection();String encoding=uc.getContentType();2、再提取charset子串（这里使用"charset="，由于网页中的大小写不敏感，所以最好用正则表达式修改一下）encoding=encoding.substring(encoding.indexOf("charset=")+8) 阅读全文

posted @ 2012-09-18 10:30 AndyDHG 阅读(1646) 评论(0) 推荐(0)

毕业设计想做一个垂直搜索引擎，关于手机方面

摘要：我毕业设计打算做一个垂直搜索引擎，关于手机方面的，抓取几个主流电商的网站的手机信息，导入到自己的搜索引擎主要实现搜索的比价，以及相关手机的性能参数。导师说最大的困难时抓取信息，这几天分析了京东商城手机方面的html页面原码，发现还是很有规律的：1）手机展览的页面公27页（到目前为止），格式是：http://www.360buy.com/products/652-653-655-0-0-0-0-0-0-0-1-1-1.html然后是http://www.360buy.com/products/652-653-655-0-0-0-0-0-0-0-1-1-2.html，只是末尾数据的变化。2）手.. 阅读全文

posted @ 2012-09-12 10:27 AndyDHG 阅读(388) 评论(0) 推荐(0)

A dream doesn't become reality through magic; it takes sweat, determination and hard work.

09 2012 档案

公告