09 2014 档案
摘要:贝叶斯过滤器过滤垃圾邮件什么是贝叶斯过滤器?垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想...
阅读全文
摘要:朴素贝叶斯分类器一、贝叶斯定理所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。根据文氏图,可以发现同理可得,所以,即其中,P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对...
阅读全文
摘要:TF-IDF 加权及其应用TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索的常用加权技术。TF-IDF是一种统计方法,用以评估某个单词对于一个文档集合(或一个语料库)中的其中一份文件的重要程度。单词的重要性随着它在文件中出现的次数成...
阅读全文
摘要:相似图片搜索相似图片搜索是指怎么计算两张图片的相似程度,这里的关键技术叫做"感知哈希算法"(Perceptual hash algorithm),它的作用是对每张图片生成一个"指纹"(fingerprint)字符串,然后比较不同图片的指纹。结果越接近,就说明图片越相似。一、感知哈希算法1、缩小尺寸将...
阅读全文
摘要:字符集与编码缩写含义:ASCII: American Standard Code for Information InterchangeUCS: Universal Character SetUTF: Unicode/UCS Transformation FormatASCII编码ASCII码是7位...
阅读全文
摘要:mysql的Replication机制参考文档:http://www.doc88.com/p-186638485596.htmlMysql的 Replication 是一个异步的复制过程。从上图可以看见MySQL 复制的基本过程如下:Slave 上面的IO线程连接上 Master,并请求从指定日志文...
阅读全文
摘要:git 使用简明手册 git 是由Linus Torvalds领衔开发的一款开源、分布式版本管理系统,显然,git最初是为了帮助管理Linux内核开发而开发的版本控制系统。 版本控制系统本身并不要求一个中央服务器(远端仓库)来存储所有数据,虽然svn是这样做的。 Git允许克隆仓库,克隆的仓库跟被克
阅读全文
摘要:字符串匹配算法 KMP算法 KMP算法是由D.E.Knuth,J.H.Morris和V.R.Pratt提出的。 首先,要了解两个概念: 前缀 (prefix),指除了最后一个字符以外,一个字符串的全部头部组合; 后缀 (suffix),指除了第一个字符以外,一个字符串的全部尾部组合。 "部分匹配值"
阅读全文
摘要:TCP/IP协议栈概述这篇文章虽然只是很粗浅的介绍了ISO/OSI 网络模型,但确实把握住了关键点,某种意义上,简单回顾一下就可以加深对TCP/IP协议栈的理解。原作者:阮一峰链接:http://www.ruanyifeng.com/blog/2012/05/internet_protocol_su...
阅读全文
摘要:熵的意义熵的概念起源于物理学的一个分支——热力学,我们可以先简单回顾一下著名的几个热力学定律:热力学第零定律:热平衡定律,若两个热力学系统均与第三个系统处于热平衡状态,此两个系统也必互相处于热平衡。热力学第一定律:能量守恒定律,即能量可以互相转化(比如机械能转化为电能),但不会凭空消失。热力学第二定...
阅读全文
摘要:ifconfig 工具ifconfig 命令常用格式:格式:ifconfig显示当前激活的网络接口信息。格式:ifconfig {INTERFACE}显示指定网络接口的信息。比如:eth0, eth1。格式:ifconfig -a显示所有网络接口的信息,无论是否激活。格式:ifconfig {INT...
阅读全文
摘要:route工具route工具主要用来查看或修改内核路由表。1、查看内核路由表route [-nee]参数说明:-n:不要使用协议或主机名称,直接使用 IP 或 port number;-ee:使用更详细的信息来显示注意:route 打印的路由表是有顺序的,服务器在做选路的时候,是从上往下依次对比,如...
阅读全文
摘要:ping 和 traceroute 命令 ping 程序 就是发送一个ICMP查询报文给某服务器,以测试该服务器是否可达。 当返回ICMP回显应答时,要打印出序列号、TTL,和往返时间; [root@localhost src]# ping www.baidu.com PING www.a.shif
阅读全文
摘要:IP路由选择IP协议提供了一种不可靠、无连接的数据传输服务:1、不可靠(unreliable):不能保证IP数据报能成功到达目的地;如果发生某种错误,比如路由器的缓冲区已满,会直接丢弃该数据报,然后发送ICMP消息给信源端;2、无连接(connectionless):每个数据报的处理是相互独立的,I...
阅读全文
摘要:TCP的那些事儿(下)这篇文章是下篇,所以如果你对TCP不熟悉的话,还请你先看看上篇《TCP的那些事儿(上)》 上篇中,我们介绍了TCP的协议头、状态机、数据重传中的东西。但是TCP要解决一个很大的事,那就是要在一个网络根据不同的情况来动态调整自己的发包的速度,小则让自己的连接更稳定,大则让整个网络...
阅读全文
摘要:TCP的那些事儿(上)原文链接:http://coolshell.cn/articles/11564.htmlTCP是一个巨复杂的协议,因为他要解决很多问题,而这些问题又带出了很多子问题和阴暗面。所以学习TCP本身是个比较痛苦的过程,但对于学习的过程却能让人有很多收获。关于TCP这个协议的细节,我还...
阅读全文
摘要:Openresty 与 TengineOpenresty和Tengine基于 Nginx 的两个衍生版本,某种意义上他们都和淘宝有关系,前者是前淘宝工程师agentzh主导开发的,后者是淘宝的一个开源项目;Openresty的最大特点是引入了ngx_lua模块,支持使用lua开发插件;Tengine...
阅读全文
摘要:polling & long polling参考:http://stackoverflow.com/questions/11077857/what-are-long-polling-websockets-server-sent-events-sse-and-comet1、轮询(Polling)是指不...
阅读全文
摘要:Varnish 4.0 简介 Varnish 是一款开源的HTTP加速器和反向代理服务器,它的主要特点有: (1)是基于内存缓存,重启后数据将消失。(2)利用虚拟内存方式,io性能好。(3)支持设置0~60秒内的精确缓存时间。(4)VCL配置管理比较灵活。(5)32位机器上缓存文件大小为最大2G。(
阅读全文

浙公网安备 33010602011771号