摘要: 一、背景:近十几年以来,互联网技术迅速发展,使互联网逐渐成为人们不可或缺的巨大信息源。准确而快速的从网上找到信息己成为人们迫切的需求。搜索引擎的出现和发展在一定程度上满足人们需要的同时,也面临着更多的挑战。网络搜索技术主要包括信息采集和信息处理两方面。网络爬虫属于信息采集部分,它是一个基于web程序,它从一个初始的网页集出发,遍历Internet,自动采集网络信息。作为搜索引擎的一个关键组成部分,... 阅读全文
posted @ 2010-03-26 10:42 小军人 阅读(9194) 评论(18) 推荐(3) 编辑
摘要: 在这个擦亮自己的眼睛去看SQLServer的系列中的第二篇中提过要写历史渊源,这里的历史主要描述的是数据库本身的历史与SQLServer本身关系不大。说实话这部分的内容要说清楚个人感觉难度比较大比较抽象。个人能力有限,如果文中有什么不合适的地方或者有错误的地方,望大家指出。可以这么说数据库的诞生和发展给计算机信息管理带来了是一场巨大的革命,40年来数据库领域获得了三次计算机图灵奖更加充分地说明了数据库是一个充满活力和创新精神的领域。 跟研究任何一门技术一样,先弄懂以下几个问题才能算是对这门技术有所了解吧:1、数据库技术主要解决什么问题 2、认识认识数据库技术发展中的大牛们 3、数据库技术... 阅读全文
posted @ 2011-08-28 15:58 小军人 阅读(2826) 评论(10) 推荐(7) 编辑
摘要: 在我的擦亮眼睛去看SQLServer之简单Select中提到了SMP系统。这篇文章很好的解释了SMP、NUMA、MPP。转载与大家分享下。 从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Processor) ,非一致存储访问结构 (NUMA : Non-Uniform Memory Access) ,以及海量并行处理结构 (MPP : Massive Parallel Processing) 。它们的特征分别描述如下: SMP(Symmetric Multi-Processor) 所谓对称多处理器结构,是指服务器中多... 阅读全文
posted @ 2011-08-23 11:02 小军人 阅读(665) 评论(0) 推荐(1) 编辑
摘要: 首先说明一下,本文绝不是要说Microsoft平台多么好,多么牛。只是要提醒一些 LAMP/JAVA平台下的同志们,Microsoft平台不至于像你们说的,和想象的那么不堪!只是你们自己不知道而已。同时,也希望广大 Microsoft同志们不要太妄自菲薄,有点信心!下面一一列举几个:http://www.msn.com/ http://www.hotmail.com/ http://www.godaddy.com/ (全球最大域名注册商)http://www.myspace.com/ http://www.match.com/ (世界最大婚恋网站)http://www.monster.com/ 阅读全文
posted @ 2011-08-17 18:20 小军人 阅读(1112) 评论(3) 推荐(0) 编辑
摘要: 在谈谈SQLServer的锁机制之前,来思考以下这个场景:当你在酷暑的时候骑着自己的小车往目的地行走时,路上连续遇到几个时间很长的红灯,是不是很郁闷?有时候你可能实在受不了闯了个红灯,其实在大部分情况下问题不大,如果通行的汽车很多那就不好说了。因为不遵守规则的人太多,都为了达到目的去走捷径,不愿意等待。这样才有了交警。交警的作用就是维护这些红绿灯的规则。这些红绿灯就像锁一样,锁住或延长你去目的地的... 阅读全文
posted @ 2011-08-14 19:55 小军人 阅读(9151) 评论(24) 推荐(21) 编辑
摘要: 作为Lucene和Nutch两 大Apach Open Source Project的始创人(其实还有Lucy, Lucene4C 和Hadoop等相关子项目),Doug Cutting 一直为搜索引擎的开发人员所关注。他终于在为Yahoo以Contractor的身份工作4年后,于今年正式以Employee的身份加入Yahoo 下面是笔者在工作之余,翻译其一篇2年前的访谈录,原文(Doug Cutting Interview)在网上Google一下就容易找到。希望对搜索引擎开发的初学者起到一个抛砖引玉的效果。 (注:翻译水平有限,不求雅,只求信,达。希望见谅) 1。请问你以何为生?你是如何开始 阅读全文
posted @ 2011-08-12 17:57 小军人 阅读(927) 评论(0) 推荐(1) 编辑
摘要: 这几天看了下范伟主演的<<跟踪孔令学>>,再一次欣赏了范伟精湛的演技特别是那种憨厚的表情。看完后,让我想起了SQLServer中的跟踪与反跟踪技术。觉得这部分内容值得写一篇文章和大家分享分享。了解SQLServer跟踪技术能让我们比较简单的在运行时实时的获取SQLServer的内部运作。这种获取方式比我们去使用跟踪标志、动态管理视图等来的方便简单的多。说到跟踪,很多人会想起SQL Profiler。SQL Profiler仅仅是一个GUI,SQL Trace才是本质。SQL Trace是构建服务器跟踪和Profiler的基础。如果你了解到这点,那你就会毫不犹豫的在生产环 阅读全文
posted @ 2011-07-09 16:25 小军人 阅读(3924) 评论(8) 推荐(8) 编辑
摘要: 本来是打算先写SQLServer历史的,不过感觉写那部分内容比较难还需要多查些资料。于是调整了下顺序写下简单的Insert语句。数据库结构还是采用上一篇的结构。具体查看上一篇文章擦亮自己的眼睛去看SQLServer之简单Select。今天讨论的语句也比较简单,Insert语句。 一、Insert脚本 insert into Test([Name]) values('xiaojun') 没什么好说的... 阅读全文
posted @ 2011-06-30 21:20 小军人 阅读(5570) 评论(16) 推荐(15) 编辑
摘要: 这篇文章主要和大家讨论几乎所有人都熟悉,但不少人又陌生的一条select语句。不知道大家有没有想过到底是什么东西让SQLServer能理解我们写的select。这中间到底发生了什么,是不是有过冲动想去了解。至少我曾经冲动想去了解,但当时主要在研究CLR以及webform相关知识。后来主要精力放在研究SQLserver内部机制,今天就给大家介绍下这条语句。 一、范例数据库脚本 create data... 阅读全文
posted @ 2011-06-25 19:35 小军人 阅读(7215) 评论(27) 推荐(25) 编辑
摘要: 也许你不需要了解SQLServer的内部机制,你照样能完成CRUD,而且可能完成的还不错,也许你不需要研究SQLServer的架构设计,你照样可以根据自己参与的项目经验设计出自己需要的架构,也许你会说不断的需求变化已经把自己的精力耗尽,也许你会说针对项目目前的情况不需要对SQLServer有较深的了解,也许你还会说我喜欢研究某某公司某产品,也许你还会觉得SQLServer太过庞大无从下手…… 但... 阅读全文
posted @ 2011-06-22 15:05 小军人 阅读(6416) 评论(22) 推荐(18) 编辑
摘要: 一、Tempdb简介 tempdb是SQLServer的系统数据库一直都是SQLServer的重要组成部分,用来存储临时对象。可以简单理解tempdb是SQLServer的速写板。应用程序与数据库都可以使用tempdb作为临时的数据存储区。一个实例的所有用户都共享一个Tempdb。很明显,这样的设计不是很好。当多个应用程序的数据库部署在同一台服务器上的时候,应用程序共享tempdb,如果开发人员不注意对Tempdb的使用就会造成这些数据库相互影响从而影响应用程序。 二 、Tempdb的特性 1、tempdb中的任何数据在系统重新启动之后都不会持久存在。因为实际上每次SQLServer启动的时. 阅读全文
posted @ 2011-06-11 18:24 小军人 阅读(3058) 评论(4) 推荐(4) 编辑
摘要: 在Extjs中,使用到ComboBox总会出现一些小问题,找半天都找不出来原因,下面就是几个要注意的。。1。ComboBox加载数据之后,ComboBox里面的值跑位,不能正确对应到ComboBox里面。原因:因为要传name的值到服务器端,使用到了隐藏属性hiddeName来传值,hiddenName的名是要和name一样的。如果id和name设置为相同的,就会不能正确对应。所以,comboBox的id和name 不能设置一样new Ext.form.ComboBox({id:"comboId",name:"comboName",hiddenName: 阅读全文
posted @ 2010-08-24 15:37 小军人 阅读(3222) 评论(1) 推荐(1) 编辑
摘要: 相信大家都遇到过用c#实现猫叫、老鼠跑、主人醒。这个已经几乎成了介绍c#事件时候的一个典型例子。今天我打算用wf中状态机工作流来实现这个场景。这里面的人物是<<猫和老鼠>>中的Jerry和Tom。先来下其中部分效果:感觉咋样?可能有人觉得这里猫叫、老鼠跑、主人醒在经典场景中应该是连贯的这里应该用状态机工作流是不是有点不好,那么谁去响应handleExternalEventA... 阅读全文
posted @ 2010-08-19 18:52 小军人 阅读(3372) 评论(9) 推荐(6) 编辑
摘要: 面向对象的问题的处理的关键是建模问题。建模可以把在复杂世界的许多重要的细节给抽象出。许多建模工具封装了UML(也就是Unified Modeling Language™),这篇课程的目的是展示出UML的精彩之处。 UML中有九种建模的图标,即:用例图类图对象图顺序图协作图状态图活动图组件图配置图 本课程中的某些部分包含了这些图的细节信息的页面链接。而且每个部分都有一个小问题,测试一下你对这个部分的理解。为什么UML很重要?为了回答这个问题,我们看看建筑行业。设计师设计出房子。施工人员使用这个设计来建造房子。建筑越复杂,设计师和施工人员之间的交流就越重要。蓝图就成为了这个行业中的设计师和施工人员 阅读全文
posted @ 2010-05-12 14:06 小军人 阅读(1271) 评论(2) 推荐(1) 编辑
摘要: 上个星期写了篇介绍V1.0的,后来用了下发现了几个问题修改了下算是V1.1版本了。主要问题如下,后面提供下载整个项目。1、V1.0中是直接对歌词文件进行了覆盖,这点如果没有备份的话就惨了哦。在这里加了目标路径,如果不选择则默认为覆盖原文件。2、V1.0中使用过程中出现了一些无法正常处理的文件。即发生了异常,没做任何处理导致没办法追踪。在这里加了日志记录功能。3、V1.0的一个Bug,过滤歌词时因为... 阅读全文
posted @ 2010-05-04 16:25 小军人 阅读(1490) 评论(2) 推荐(1) 编辑
摘要: 刚做完一个手机音乐播放器,来整理一些歌词资源的时候。发现很多歌词里面有些东西是我们不需要的。比较※、[ti:[ar:、[al:、[by:]、編曲:、]作词:]、作曲:、]演唱:、]QQ、[offset:、]※等等之类,这个时候就想到做一个简单的过滤工具,把包含这些词的行删掉。这样歌词就显的很简洁了。恩,算是说了下背景吧。其实这个工具不难,不过竟然我做好了,就发布处理算是提供... 阅读全文
posted @ 2010-04-29 16:54 小军人 阅读(2045) 评论(5) 推荐(4) 编辑