上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页
摘要: 从事爬虫相关的工作已经两年多了。简要做下总结。爬虫(Crawler),有些也叫蜘蛛(Spider),用来从互联网下载网页。是搜索引擎的重要组成。爬虫是搜索引擎的数据来源,是数据的入口。爬虫的基本思想是认为整个互联网类似于一个交错的蜘蛛网。在互联网中每个网页都可以通过url访问。任何一个网页都会被互联网中的其他一些网页所指向(即其他页面中包含该页面的url链接)。而几乎每个网页都存在一些指向其他网页的链接。我们可以通过初始的若干URL开始,获取这些URL,并从这些URL对应的网页中发现新的URL,然后获取新的URL对应的页面,通过不断的执行该过程,可以遍历整个互联网(即发现互联网上所有的URL. 阅读全文
posted @ 2013-07-14 20:14 @且听风吟@ 阅读(404) 评论(0) 推荐(0)
摘要: 为什么需要一致性hash 传统hash算法常用方式为:hash(object)%N N为一个固定值。 N设置较小时容易产生冲突碰撞问题。而N设置较大时则带来开销问题。 对于我们常用的单机程序时是内存开销变大。而用在分布式环境时,该N值和机器数目相关,则是需要的机器数增加。因此,N值应该是一个随着 业务不断变大,而逐步提升的值。而该传统的hash算法带来的问题是N值改变,比如最初N为... 阅读全文
posted @ 2013-07-11 09:55 @且听风吟@ 阅读(396) 评论(0) 推荐(0)
摘要: thrift是一个很好用的跨语言的rpc框架。 但是其也有一些需要注意的问题: 第一: 发现其对于类型检查没有那么严格: 最近工作中发现是可以把一个int类型直接付给string,而没有任何warning 第二: 其提供了一个DebugProtocolToDebugSring 可以用来作为debug的结构输出。还挺方便您的 阅读全文
posted @ 2013-07-09 18:04 @且听风吟@ 阅读(185) 评论(0) 推荐(0)
摘要: 拜读了 http://blog.csdn.net/v_july_v/article/details/6530142, 自己总结下: B树的出发点是为了解决磁盘IO慢的问题,尽量再一个磁盘块中提供更多的索引信息。 B+树是在B树的基础上进一步提升。所有的内部节点只有关键字,没有其他信息。降低内部节点的存储开销。是的一个磁盘块可以存储更多的内部节点。 而在叶子节点保存关键字对应的有效内... 阅读全文
posted @ 2013-07-05 09:23 @且听风吟@ 阅读(250) 评论(0) 推荐(0)
摘要: 今天编译代码突然发现报错如下: undefined reference to `libiconv' 查询网上资料好多都是说sphinx编译的问题。 这部分代码之前是可以编译通过没有问题的。而我正好前几天在机器上面尝试sphinx,重新安装了libiconv库。 怀疑跟此有关系。 但是那些都解决不了我的问题了。知道看到下面这个文章,才恍然大悟 http://tonybai.com/201... 阅读全文
posted @ 2013-06-09 11:44 @且听风吟@ 阅读(5529) 评论(0) 推荐(1)
摘要: 最近配置网络使用了iptables,先简单记录下使用到的部分。 Iptables参数 -m state --state <状态> 有数种状态,状态有: ▪ INVALID:无效的封包,例如数据破损的封包状态 ▪ ESTABLISHED:已经联机成功的联机状态; ▪ NEW:想要新建立联机的封包状态; ▪ RELATED:这个最常用!表示这个封包是与我们主机发送出去的封包有关, 可能是响应封包或... 阅读全文
posted @ 2013-06-07 09:45 @且听风吟@ 阅读(166) 评论(0) 推荐(0)
摘要: wgethttp://www.coreseek.cn/uploads/csft/3.1/Source/csft-3.1.tar.gzwgethttp://www.coreseek.cn/uploads/csft/3.1/Source/mmseg-3.1.tar.gz安装mmseg$./configure --prefix=/usr/local/mmesg$make$make installwgethttp://ftp.gnu.org/gnu/libiconv/libiconv-1.14.tar.gz$./configure$make$make install安装coreseek./config 阅读全文
posted @ 2013-05-24 13:30 @且听风吟@ 阅读(213) 评论(0) 推荐(0)
摘要: 今天学习使用WdatePicker控件 首先下载:http://www.my97.net/dp/down.asp 然后解压 使用示例如下: 通过POST获取选中的日期输出以测试 1: <script type="text/javascript" src="My97DatePicker/WdatePicker.js"></script> 2: <body>... 阅读全文
posted @ 2013-05-16 09:38 @且听风吟@ 阅读(332) 评论(0) 推荐(0)
摘要: 转载自: http://hi.baidu.com/lzpsky/item/62bce176c443435f0c0a0726 apache服务器使用时配置经常用到,Mark以下以备留用。 RewriteCond指令格式 语法: RewriteCond TestString CondPattern [flags] RewriteCond指令定义一条规则条件。在一条RewriteRule指令前面... 阅读全文
posted @ 2013-05-16 09:05 @且听风吟@ 阅读(185) 评论(0) 推荐(0)
摘要: 1: #!/usr/bin/python 2: import string 3: funcs=[] 4: vars=[] 5: for element in dir(string): 6: name = "string.%s" %element ... 阅读全文
posted @ 2013-04-29 15:26 @且听风吟@ 阅读(1483) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页