摘要:
一直忘了在这里发个公告了,我的Blog已经搬到 http://robbyshao.spaces.live.com/ 欢迎光临 阅读全文
摘要:
由于自己的搜索引擎中做到了这一块内容,所以今天说说如何抓取网页数据、分析并且去除Html标签,给大家提供一个参考。我的平台是Visual Studio2005,C#。
—————————————————————割—————————————————————————
首先将网页内容整个抓取下来,这个我就不说了,不是本次话题的重点。假设抓取的数据放在RecvBuffer这个byte[]中(数据从网络上传输过来时不是字符串的形式而是byte),那么我们的第一步就是将RecvBuffer转化为String,以便于对其操作,实例如下: 阅读全文
摘要:
在上海出差了一个礼拜,看到了很多事,有很多感受,于是在blog上随便说说。 上海的住宿还不错,徐家汇那边的宜山路上宾馆,160元条件还不赖,卫生间整洁,还有免费上网(其实我只需要这个就行,呵呵)。 可吃的就不怎么样了,我出差的单位中午有工作餐,但是惨不忍睹,又难吃又难看,晚上自己去找饭店吃,却很难找到实惠又好吃的地方,而且蔬菜、水果比较贵,真想念杭州的美食啊。。。。... 阅读全文
摘要:
2007年4月20日,比尔盖茨在北大演讲,在他为一行人颁奖时,一位男子手写有“Free software open source(免费软件 开放源代码)”的海报并大声用英语叫喊反对微软垄断,事后该男子被警方带走进行调查。
该名男子是LPI中国首席代表王洋,自号王开源,是开源软件的积极分子。
开源真的与商业软件是对立的吗?微软的垄断就一定对我们是坏消息吗?想出名就一定要裸奔似的去吸引眼球吗?其实不然。
阅读全文
摘要:
最初到单位实习的时候,我总喜欢自己动手写所有的代码,别人写的可通用的模块我不喜欢用,因为我觉得别人的总是别人的,自己用的时候总感觉不爽,而且一旦需要修改、需要分析的时候,就需要花大量的时间去看代码(ps,可能是单位同事写的确实不规范,文档也不全,反正我当初就是这么觉得)。我倒是非常乐意自己全部重新写。
但是实习了一个月后,我终于发现,学会利用别人的成果实在是太重要了。过去的一个月中,我没有做出一个完整的项目,而别人的进度却比我快得多。 阅读全文
摘要:
今天在网上找开源程序作为自己程序的参考时,突然想到一个问题:编程这么久了,用了这么多开源程序,自己也贡献了一些开放源代码的程序,但是到现在要是问我什么是开源软件?什么是开源?那我可就钻地洞去了。
太惭愧了,想必很多人也和我一样。落后不要紧,赶紧补补才是真。于是我打开http://www.opensource.org 这个最出名的开源网站之一(人家域名就是叫开源啊,呵呵),如果这个网站你还不知道,那就先去补补开源的历史。然后在我在http://www.opensource.org/docs/definition.php 找到了最新的开源定义(带注释的)。 阅读全文
摘要:
最近很忙啊,今天抽空上来写点。
上次的文章中向大家推荐了一篇老外的文章《Web Search Engines》,新手入门看不错,于是将自己的翻译搬上来给不熟鸟语的同志们参考参考(目前只翻译了前半部分),翻译的比较仓促,翻译的好坏就不管了,能让大家看懂而不误导大家就行了,HoHo。 阅读全文
摘要:
由于毕设和工作的原因,所以开始研究搜索引擎相关的内容。搞了一个月了,才大致明白了搜索引擎的历史、现状、原理和其他一些理论。
走了不少弯路,网上找有用的信息也不是个容易的事(ps:搜索引擎的未来就是要更快的让我们找到有用的信息啊,而不是一堆不相干的垃圾信息)。此次写点东西,想让也和我一样初学搜索引擎的筒子们能少走点弯路。 阅读全文