导航

摘要: 基本包括了常用的正则表达式测试工作。对应.net Framework 2.0版本VB.NET编写百度网盘下载:http://pan.baidu.com/s/1eQAHnlo包含源码。在下一个版本将把MDI形式改为时下流行的选项卡 阅读全文

posted @ 2014-10-29 09:35 Beta-TNT 阅读(196) 评论(0) 推荐(0) 编辑

2018年1月5日

摘要: 有时候会遇到这种情况:想从某个网站下载一批东西,目标URL是比较规整的,而且结构都一样(仅某些字段不同)。但又懒得开IDE专门写个脚本去弄,今天就和大家分享一下,如何利用手边常用的软件和工具,不用写一行代码或者脚本,就能完成这项工作。 需要的软件工具有:正则表达式工具、WGET(或者CURL)、EX 阅读全文

posted @ 2018-01-05 13:32 Beta-TNT 阅读(4842) 评论(0) 推荐(0) 编辑

2016年1月28日

摘要: 严格意义来说,采集器和爬虫不是一回事:采集器是对特定结构的数据来源进行解析、结构化,将所需的数据从中提取出来;而爬虫的主要目标更多的是页面里的链接和页面的TITLE。 采集器也写过不少了,随便写一点经验吧,算是给自己的一个备忘。 首先是最简单的:静态页面采集器。即所采集的数据来源页面是静态的,至少采 阅读全文

posted @ 2016-01-28 09:40 Beta-TNT 阅读(2172) 评论(3) 推荐(0) 编辑

2015年8月12日

摘要: 嗯……前阵子接了个活儿,需要做一个基于IP地址黑名单的分流网关。刚接到的时候心想iptables不就行了么,没想到一看客户给的IP黑名单规模……我擦……上亿个……黑名单到了这个规模,就不得不考虑下优化的问题了。要知道从0.0.0.0到255.255.255.255,IP地址总共也只有232个,约43... 阅读全文

posted @ 2015-08-12 13:30 Beta-TNT 阅读(3775) 评论(0) 推荐(0) 编辑