会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
_fred
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
下一页
2018年3月22日
Redis进阶
摘要: 一.Redis的优势 1. 大部分主流数据库只支持单一的数据结构,比如传统的关系型数据库只支持二维表格,Memcache只支持字符串的键值对,而Redis支持多种数据结构:字符串,列表,集合,散列,有序集合,HyperLogLog,故此在诸多场景都有应用。 2. 数据存储在内存,读写速度极快。 3.
阅读全文
posted @ 2018-03-22 17:45 _fred
阅读(273)
评论(0)
推荐(0)
2018年3月21日
文本查重算法SimHash
摘要: 1.介绍 爬虫采集了大量的文本数据,如何进行去重?可以使用文本计算MD5,然后与已经抓取下来的MD5集合进行比较,但这种做法有个问题,文本稍有不同MD5值都会大相径庭, 无法处理文本相似问题。另一种方式是本文要介绍的SimHash,这是谷歌提出的一种局部敏感哈希算法,在吴军老师的《数学之美》里也有介
阅读全文
posted @ 2018-03-21 14:14 _fred
阅读(3567)
评论(1)
推荐(0)
哈夫曼树
摘要: 一.计算机编码 计算机编码有很多方式,比如我们非常熟悉的ASCII码,它将每个字符编码成同样长度的码值(一个字节),但是实际上每个字符,出现的频率是不一样的,比方说e出现的频率要大于很多字符的频率,如果能将这些常见字符的编码缩短,而不太常见的字符编码可以适当增长,那么显然有助于优化存储空间。 二.判
阅读全文
posted @ 2018-03-21 10:47 _fred
阅读(284)
评论(0)
推荐(0)
2018年3月20日
HDFS基本原理总结
摘要: HDFS由三个基本组件组成:NameNode,SecondaryName,DataNode,其思想类似于Linux的文件系统,可以进行类比。 1.NameNode介绍: 1.管理整个文件系统的命名空间,内部维护了命名树。 2.存储元数据:文件层级关系,文件所有者及权限,每个文件由哪些文件块组成(但元
阅读全文
posted @ 2018-03-20 16:14 _fred
阅读(453)
评论(0)
推荐(1)
Zookeeper技术分享
摘要: 内容整理自组内分享PPT 一.概述 ZooKeeper 遵循一个简单的客户端-服务器模型,其中客户端 是使用服务的节点(即机器),而服务器 是提供服务的节点。ZooKeeper 服务器的集合形成了一个 ZooKeeper 集合体(ensemble)。在任何给定的时间内,一个 ZooKeeper 客户
阅读全文
posted @ 2018-03-20 11:41 _fred
阅读(348)
评论(0)
推荐(0)
2018年3月19日
TCP/IP NAT知识梳理
摘要: 一. IP地址的获取 首先,互联网上的每台主机都有一个唯一的IP地址标识,计算机在通信时需要向网络中的DHCP(动态主机配置协议)服务器申请一个IP地址,但开始主机并不知道哪台机器是DHCP服务器(不知道对方的MAC地址),所以这个请求(DHCP Discovery)必须广播出去,使网络中的每台支持
阅读全文
posted @ 2018-03-19 16:10 _fred
阅读(296)
评论(0)
推荐(0)
MapReduce浅析
摘要: 很早之前就用过Hadoop,但对MapReduce中的具体数据流向过程一直不甚明了,用Python Streamming的方式写了几个MapReduce,对这个过程有了一定的认识。 首先我们知道,MapReduce的输入数据以Block的形式存储在HDFS上,默认是以64MB的大小存放在DataNo
阅读全文
posted @ 2018-03-19 15:51 _fred
阅读(227)
评论(0)
推荐(0)
LintCode主元素
摘要: 主元素1: 这道题是编程之美上的一道原题,如果题目未对时间复杂度有严格要求的话可以先排序,再取中位数。 本题中要求算法达到时间复杂度为O(n),空间复杂度为O(1),算法如下: 基本思想是每次删除使两个不同的数字两两“抵消”,每次剩下的元素中主元素的次数仍然应该超过总个数的一半,不断重复此过程。 这
阅读全文
posted @ 2018-03-19 15:45 _fred
阅读(257)
评论(0)
推荐(0)
2018年3月13日
2017年书单
摘要: 1.计算机程序的构造与解释 大名鼎鼎的sicp,据知乎上一些大佬说是计算机必读书之一,此言不虚,不夸张的说,对我来说真是有醍醐灌顶之效,虽然自己也算写了几年代码了。这本书是MIT计算机本科的入门教材之一(非常惭愧,很多内容我现在读还是懵懵懂懂),用Lisp语言讲解,这是一门非常优美的语言,能让人更深
阅读全文
posted @ 2018-03-13 10:02 _fred
阅读(420)
评论(0)
推荐(0)
2017年5月17日
NIO原理剖析与Netty初步----浅谈高性能服务器开发(一)
摘要: 除特别注明外,本站所有文章均为原创,转载请注明地址 在博主不长的工作经历中,NIO用的并不多,由于使用原生的Java NIO编程的复杂性,大多数时候我们会选择Netty,mina等开源框架,但理解NIO的原理就不重要了吗?恰恰相反,理解NIO底层机制是理解这一切的基础,由此我总结一下当初学习NIO时
阅读全文
posted @ 2017-05-17 21:59 _fred
阅读(9039)
评论(4)
推荐(0)
上一页
1
2
3
4
下一页
公告