2015年1月8日

摘要: 如果有大型数据文件(如每行为url或者ip或者单词等的),以G为单位的,处理的时候需先切分。普通切分方法直接根据数据条数切分,得到的每个文件大小相近。 但是有时需要将相同数据放到相同文件中。可以使用hash切分法。 public class Test { static int HASHLEN... 阅读全文
posted @ 2015-01-08 20:24 长456风 阅读(753) 评论(0) 推荐(1)

2014年11月16日

摘要: 1、for...in...:和while...:循环末端都可以有一个else:语句,但他仅在循环不是由break语句退出时才会被运行 2、input raw input区别 一、 可以看到:这两个函数均能接收 字符串 ,但 raw_input() 直接读取控制台的输入(任何类型的输入它都可以接收... 阅读全文
posted @ 2014-11-16 21:54 长456风 阅读(109) 评论(0) 推荐(0)

2014年11月2日

摘要: 许多网站的数据是异步传输的,要找到相对应的js和ajax比较麻烦。其实只需要找到js和ajax生成的url即可。用firefox的firebug工具即可,查看响应结果 阅读全文
posted @ 2014-11-02 14:21 长456风 阅读(156) 评论(0) 推荐(0)
摘要: 在windows上安装python下载mis安装即可。 环境用elipse即可,需要下载pydev插件,配置解释器。 如需用到matplotlib,安装顺序为matplot,numpy,dateutil,pyparsing,scipy.其他问题网上都有,如果matplot和numpy有顺序弄错,... 阅读全文
posted @ 2014-11-02 13:52 长456风 阅读(157) 评论(0) 推荐(0)

2014年9月26日

摘要: 1、最初版本,使用多线程爬取,如果网断了就得重新爬。解决方法:另建多线程存储,并做好记录文件。 2、使用htmlparser爬取时,有的网页爬取过慢,无法设置超时连接。可使用java.net下的url,用流的方式获取网页信息,里面有设置超时的方法。可设置守护线程方式判断连接是否超时(未验证)。可... 阅读全文
posted @ 2014-09-26 10:58 长456风 阅读(220) 评论(0) 推荐(0)
摘要: 1、在运行远程服务端之前,使用rmic命令操作impl 2、运行客户端出现time out,尝试ping服务器电脑不能成功。关闭服务器端防火墙,可ping成功。 3、显示连接失败,错误显示的ip不是自己要连接的ip。由于服务器端有多个网卡,(可能在rmic的时候绑定的不是自己想要的ip)。禁用其... 阅读全文
posted @ 2014-09-26 10:32 长456风 阅读(214) 评论(0) 推荐(0)

2014年7月24日

摘要: 这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页,以及如何使用 HttpClient 来简化 Get 和 Post 请求操... 阅读全文
posted @ 2014-07-24 20:21 长456风 阅读(573) 评论(0) 推荐(0)

2014年6月17日

摘要: 文/邢波涛 编者按:系统架构师是许多程序员的梦想职业。今天的你也许已经掌握了各种开发工具,并且能够使用各种平台进行开发,但作为一个架构师的要求,也许还有很长的道路。邢波涛先生在LAMP架构上的造诣,让我邀请他撰写本文,也许这位架构师的建议能让你在未来的架构师之路上节省一点时间。 一个产品的... 阅读全文
posted @ 2014-06-17 18:18 长456风 阅读(154) 评论(0) 推荐(0)

2014年6月16日

摘要: 使用大顶堆无限制大小。如果用顺序表实现,插入的时候麻烦,如果用链表(无序)实现得到最大优先级数据的时候麻烦。使用堆可以使两者得到中和。Lucene使用小顶堆定长实现,对于大量数据处理有利。 阅读全文
posted @ 2014-06-16 19:31 长456风 阅读(297) 评论(0) 推荐(0)

2014年5月30日

摘要: 程序看着运行正常,但是点击几下就没反应了。 可能原因:1、tomcat内存不足 2、程序中有资源未释放。比如session(hibernate的)等(需要close) 阅读全文
posted @ 2014-05-30 02:34 长456风 阅读(744) 评论(0) 推荐(0)

导航