摘要:一.抓取网页 1.URL Web 上每种可用的资源, 如HTML 文档、 图像、 视频片段、 程序等都由一个通用资源标志符(Universal Resource Identifier,URI)进行定位。 URI 通常由三部分组成:①访问资源的命名机制;②存放资源的主机名;③资源自身的名称。 URL 是 URI 的一个子集。 它是 Uniform Resource Locator 的缩写, 译为 “统一资源定位符”。通俗地说,URL 是 Internet 上描述信息资源的字符串,主要用在各种 WWW 客户程序和服务器程序上, 特别是著名的 Mosaic。 采用 URL 可以用一种统一的...
阅读全文
摘要:JULY:结构之法,算法之道 (偏算法)http://blog.csdn.net/v_JULY_vHackbuteer1(偏面试)http://blog.csdn.net/hackbuteer1
阅读全文
摘要:转自:http://www.cnblogs.com/wenanry/archive/2010/02/25/1673368.html原文:http://igoro.com/archive/what-really-happens-when-you-navigate-to-a-url/作为一个软件开发者,你一定会对网络应用如何工作有一个完整的层次化的认知,同样这里也包括这些应用所用到的技术:像浏览器,HTTP,HTML,网络服务器,需求处理等等。本文将更深入的研究当你输入一个网址的时候,后台到底发生了一件件什么样的事~1. 首先嘛,你得在浏览器里输入要网址:2. 浏览器查找域名的IP地址导航的第一步
阅读全文
摘要:迅雷2012校园招聘笔试题 http://blog.csdn.net/hackbuteer1/article/details/74542523、在C语言中,要求运算数必须是整型的运算符是()A、/ B、++ C、|= D、%
阅读全文
摘要:12、文件长度是一个大于0的整数,用变量unsigned file_length; 来表示,把文件分成块,每块的长度也是一个大于0的整数,用变量unsigned block_length; 来表示,则文件被分成的块数为()A、file_length/block_length B、file_length/block_length+1 C、(file_length+block_length-1)/block_length D、((file_length-1)/block_length+113、整数int i = 0xFE78DA45; ...
阅读全文
摘要:EhCache 1.简介 EhCache 是一个纯Java的进程内缓存框架。能直接缓存Java的对象。 ehcache是一个用Java实现的使用简单,高速,实现线程安全的缓存管理类库,ehcache提供了用内存,磁盘文件存储,以及分布式存储方式等多种灵活的cache管理方案。 Ehcache的类层次模型主要为三层,最上层的是CacheManager,他是操作Ehcache的入口。我们可以通过CacheManager.getInstance()获得一个单个的CacheManager,或者通过CacheManager的构造函数创建一个新的CacheManager。每个CacheMana...
阅读全文
摘要:一‘性能优化1、通常服务器的性能会卡在三个地方:cpu网络IO磁盘IO2、在优化性能的时候,首先要判断性能的瓶颈在上述的哪个地方。然后对症下药,按照下面的方法来优化:1、提高CPU性能的方法并发。利用多线程、进程。进(线)程数不要大于cpu个数谨慎用锁。改善架构,尽量不用锁。慎用字符串操作,比如sprintf,snprintf,因为%d %s等等都需要CPU资源去做词法分析,数量多的话,也是不菲的开销减少系统调用,例如time,主要消耗在用户态和内核态之间的切换。减少遍历操作。把握真实需求,简化实现方案优化架构,字符串协议解包很耗cpu,考虑单独一个线程 一个好的架构,服务器的CPU总消耗总是
阅读全文
摘要:一、简介 SSH为Secure Shell的缩写,SSH 为建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。 从客户端来看,远程登录提供两种级别的安全验证。 第一种级别(基于口令的安全验证) 只要你知道自己帐号和口令,就可以登录到远程主机。所有传输的数据都会被加密,但是不能保证你正在连接的服务器就是你想连接的服务器。可能会有别的服务器在冒充真正的服务器,也就是受到“中间人”这种方式的攻击。 第二种级别(基于密匙的安全验证) 需要依靠密匙,也就是你必须为自己创建...
阅读全文
摘要:参考题:http://www.cnblogs.com/v-July-v/archive/2011/10/17/3125425.html *私网IP地址:10.0.0.0- 10.255.255.255;172.16.0.0- 172.31.255.255;192.168.0.0-192.168.255.255。 *Hash处理冲突: 1.开放寻址法;Hi=(H(key) + di) MOD m,i=1,2,…,k(k127 -128->-1 *所谓守护线程,是指在程序运行的时候在后台提供一种通用服务的线程,比如垃圾回收线程就是一个很称职的守护者,并且这种线程并不属于程序中不可或缺...
阅读全文
摘要:1.分类 狭义的分布是指,指多台PC在地理位置上分布在不同的地方。 分布式操作系统:负责管理分布式处理系统资源和控制分布式程序运行。它和集中式操作系统的区别在于资源管理、进程通信和系统结构等方面。 分布式文件系统具有执行远程文件存取的能力,并以透明方式对分布在网络上的文件进行管理和存取。 分布式计算:利用分布式系统解决来计算问题。在分布式计算里,一个问题被细化成多个任务,每个任务可以被一个或者多个计算机来完成。 分布式程序设计语言:用于编写运行于分布式计算机系统上的分布式程序。一个分布式程序由若干个可以独立执行的程序模块组成,它们分布于一个分布式处理系统的多台计算机上被同时执行。...
阅读全文
摘要:1.包首部 1)源端和目的端的端口号客户IP地址、客户端口号、服务器IP地址和服务器端口号的四元组)可唯一确定互联网络中每个TCP连接的双方。 2)序号用来标识从TCP发端向TCP收端发送的数据字节流,它表示在这个报文段中的的第一个数据字节。如果将字节流看作在两个应用程序间的单向流动,则TCP用序号对每个字节进行计数。序号是32bit的无符号数,序号到达232-1后又从0开始。 当建立一个新的连接时(或断开连接),序号字段包含由这个主机选择的该连接的初始序号ISN(InitialSequenceNumber)。ISN随时间而变化,因此每个连接都将有不同的ISN。这样做,一方面是为了防止连...
阅读全文
摘要:同步:所谓同步,就是在发出一个功能调用时,在没有得到结果之前,该调用就不返回。也就是必须一件一件事做,等前一件做完了才能做下一件事。例如普通B/S模式(同步):提交请求->等待服务器处理->处理完毕返回这个期间客户端浏览器不能干任何事异步:异步的概念和同步相对。当一个异步过程调用发出后,调用者不能立刻得到结果。实际处理这个调用的部件在完成后,通过状态、通知和回调来通知调用者。 例如 ajax请求(异步):请求通过事件触发->服务器处理(这是浏览器仍然可以作其他事情)->处理完毕阻塞阻塞调用是指调用结果返回之前,当前线程会被挂起(线程进入非可执行状态,在这个状态下,cpu
阅读全文