会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
长456风
上一页
1
···
16
17
18
19
20
21
22
下一页
2015年1月8日
使用hash方法切割文件
摘要: 如果有大型数据文件(如每行为url或者ip或者单词等的),以G为单位的,处理的时候需先切分。普通切分方法直接根据数据条数切分,得到的每个文件大小相近。 但是有时需要将相同数据放到相同文件中。可以使用hash切分法。 public class Test { static int HASHLEN...
阅读全文
posted @ 2015-01-08 20:24 长456风
阅读(753)
评论(0)
推荐(1)
2014年11月16日
python问题笔记
摘要: 1、for...in...:和while...:循环末端都可以有一个else:语句,但他仅在循环不是由break语句退出时才会被运行 2、input raw input区别 一、 可以看到:这两个函数均能接收 字符串 ,但 raw_input() 直接读取控制台的输入(任何类型的输入它都可以接收...
阅读全文
posted @ 2014-11-16 21:54 长456风
阅读(109)
评论(0)
推荐(0)
2014年11月2日
异步评论爬取心得
摘要: 许多网站的数据是异步传输的,要找到相对应的js和ajax比较麻烦。其实只需要找到js和ajax生成的url即可。用firefox的firebug工具即可,查看响应结果
阅读全文
posted @ 2014-11-02 14:21 长456风
阅读(156)
评论(0)
推荐(0)
python安装的各种问题
摘要: 在windows上安装python下载mis安装即可。 环境用elipse即可,需要下载pydev插件,配置解释器。 如需用到matplotlib,安装顺序为matplot,numpy,dateutil,pyparsing,scipy.其他问题网上都有,如果matplot和numpy有顺序弄错,...
阅读全文
posted @ 2014-11-02 13:52 长456风
阅读(157)
评论(0)
推荐(0)
2014年9月26日
船舶爬虫出现过的问题
摘要: 1、最初版本,使用多线程爬取,如果网断了就得重新爬。解决方法:另建多线程存储,并做好记录文件。 2、使用htmlparser爬取时,有的网页爬取过慢,无法设置超时连接。可使用java.net下的url,用流的方式获取网页信息,里面有设置超时的方法。可设置守护线程方式判断连接是否超时(未验证)。可...
阅读全文
posted @ 2014-09-26 10:58 长456风
阅读(220)
评论(0)
推荐(0)
java远程调用中出现的问题(主要是在不同电脑之间出现的问题)
摘要: 1、在运行远程服务端之前,使用rmic命令操作impl 2、运行客户端出现time out,尝试ping服务器电脑不能成功。关闭服务器端防火墙,可ping成功。 3、显示连接失败,错误显示的ip不是自己要连接的ip。由于服务器端有多个网卡,(可能在rmic的时候绑定的不是自己想要的ip)。禁用其...
阅读全文
posted @ 2014-09-26 10:32 长456风
阅读(214)
评论(0)
推荐(0)
2014年7月24日
httpparase + httpclient 的运用
摘要: 这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页,以及如何使用 HttpClient 来简化 Get 和 Post 请求操...
阅读全文
posted @ 2014-07-24 20:21 长456风
阅读(573)
评论(0)
推荐(0)
2014年6月17日
迈向系统架构师
摘要: 文/邢波涛 编者按:系统架构师是许多程序员的梦想职业。今天的你也许已经掌握了各种开发工具,并且能够使用各种平台进行开发,但作为一个架构师的要求,也许还有很长的道路。邢波涛先生在LAMP架构上的造诣,让我邀请他撰写本文,也许这位架构师的建议能让你在未来的架构师之路上节省一点时间。 一个产品的...
阅读全文
posted @ 2014-06-17 18:18 长456风
阅读(154)
评论(0)
推荐(0)
2014年6月16日
java之中PriorityQueue实现原理(具有优先级的队列)
摘要: 使用大顶堆无限制大小。如果用顺序表实现,插入的时候麻烦,如果用链表(无序)实现得到最大优先级数据的时候麻烦。使用堆可以使两者得到中和。Lucene使用小顶堆定长实现,对于大量数据处理有利。
阅读全文
posted @ 2014-06-16 19:31 长456风
阅读(297)
评论(0)
推荐(0)
2014年5月30日
tomcat服务器经常需要重启
摘要: 程序看着运行正常,但是点击几下就没反应了。 可能原因:1、tomcat内存不足 2、程序中有资源未释放。比如session(hibernate的)等(需要close)
阅读全文
posted @ 2014-05-30 02:34 长456风
阅读(744)
评论(0)
推荐(0)
上一页
1
···
16
17
18
19
20
21
22
下一页
导航
博客园
首页
新随笔
联系
订阅
管理
公告