10 2012 档案
摘要:看移山之道,就像看一部小说,在叙述着移山公司的发展历程的同时像我们介绍了VSTS以及MSF方法论,同时也像我灌输了团队编程的一些习惯、技巧以及身为一个团队成员的责任。 在团队中,我们要相互信任,信任他人可以按时保质的完成任务,同时也要为他人的信任负责,自己按时保质的完成自己的任务。而相互信任,必然离不 开团队的交流。MSF给了我们一个必须交流的项目合作模式,即在对任务的处理中,通过预设置的状态变更条件来完成简单的交流。但团队成员聚在一起开个小 会,一起为了项目发言的工作也是必不可少的。 为团队负责,势必要对各个环节负责。增加自己代码的可读性,如变量名的设置,注释的添加等方法都是必不可少...
阅读全文
摘要:一个坏苹果会毁了一箱好苹果,在软件开发过程中,无论你做了多少正确的事情,你只要做了一件错事,软件的开发进度就会延期。 这次最大的感受就是软件工程的核心是按期质量的完成计划,最好能够快速开发。 关键是按期。软件的时间规划很难。就像书中写的你很可能肯定的列出了一个项目的时间计划表。但是由于种种的原因,计划一拖再拖,最后甚至可能直接被取消的。一个过于乐观的计划表,会使你突然在交付前夕突然匆忙起来,而匆忙的结果导致更多的错误,最后使得工期一再拖延。所以,一个真实可靠的时间计划表非常重要。《快速软件开发》中说“有少数的一些组织的进度估算准确到了10%以内,能控制在5%之内的还没有听说”。 的确...
阅读全文
摘要:这几天在读邹老师的移山之道,选择这本书有两个原因,一个是这本书字最少了,另一个。。。你懂得。 很推荐大家都来读移山之道,一个主要原因是,邹老师的书很懂他的读者,也很懂如何讲给他的读者。略带诙谐的文字使干巴巴的软件工程理论和VSTS工具指南生动起来,尤其是移山公司人物的对白总能戳中要害。印象比较深的几处:大段理论和名词解释后,小飞表示晕菜,我也同样读的犯困;很喜欢白话MSF方法论这章,貌似是移山人物对白最多的一章吧(菜鸟都喜欢白话什么的?);两个劫匪的故事,越成熟简单的软件开发过程和工具越是对广大开发人员的挑战,因为平台是平等的,相对的比较越发苛刻了;差点笑喷我的小飞向阿超提出的所谓CTO白领.
阅读全文
摘要:当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 ----要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。 ----搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给 网络蜘蛛用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所...
阅读全文
摘要:我们大致把爬虫分为两类:一类是用于搜索引擎的搜索爬虫,抓取目标是整个互联网;一类则是各种定向爬虫,抓取目标是所有网站中的一个特定子集,甚至就是某一个网站。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫,聚焦爬虫还.
阅读全文
摘要:爬虫技术:基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。爬虫策略:网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入问题,目前常见的是广度优先和最佳优先方法。在编写爬虫的时候可以考虑使用广度优先和最佳优先的方法。 广度优先搜索策 略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方 法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关.
阅读全文
摘要:功能Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitepmap 形式,就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以 更加智能地抓取网站。介绍网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。Sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所有网址,并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包含在搜索引擎中,但可向网络抓取工具提供一些提示以便它们更有效地抓取网站
阅读全文
摘要:定向爬虫是网络爬虫的一种。 定向爬虫 定向爬虫可以精准的获取目标站点信息。 定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。优势: 基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。 劣势: 目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本。 也就是说定向爬取就是我们要针对不同的网页构建不同的网页模板,比如针对BBS就要构建与BBS相同的网页模板,让爬虫定向的搜集某个网页块内的信息。对于问答网站就更是如此...
阅读全文
摘要:目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表:下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较:Nutch开发语言:Javahttp://lucene.apache.org/nutch/简介:Apache的子项目之一,属于Lucene项目下的子项目。Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己
阅读全文
摘要:我的同组人是潘学依然是之前的观点,我认为结对编程会在项目正式开始编写之前花费更多的时间。在开始编程之前,我们都有等着对方开始做,我再开始的想法,于是把这个 编程项目拖了很久才开始。但真正开始之后,我们由于相互过问对方的进度,反而感受到了压力,逼着自己更快地完成自己的任务,使自己再被问到时候可以不回尴 尬,最好还能有一些超额完成来让自己小小的自豪一下。我觉得我的优点在于我有耐心,可以灵活运用找到的资源,学习能力强。但我的缺点在于我编程能力较弱。我的队友潘学的优点在于他做事积极,对交给他的任务有责任心,可以细心地完成任务,缺点在于比较随性,有时不会按照计划时间完成任务。信息隐蔽指在设计和确定模块时
阅读全文
摘要:软工的第二次作业是结队编程,具体任务是在一个已经完成简单的电梯调度的框架基础上改进电梯调度的部分以提高程序效率。 原程序是用c#写的,并且有着十分明显的面向对象的风格,每一部分都分的十分详细,每一小块的功能都十分简单,便于查找、修改、拓展其中的内 容。但这对我来说是一个不小的挑战,因为尽管我在之前已经用java及c++写过一些程序,但是其风格仍然是c语言风格,最多就是披着面向对象外皮的面向 过程的程序,将面向对象中的类及其方法当过c语言中的函数来使用。不得不说这是一种十分早糟糕的做法,这让我在学习面向对象的语言的时候并没有很好的理解 面向过程的思想,尽管知道什么叫类,什么叫接口,但根本没...
阅读全文
摘要:李栋我是李栋,很高兴能够和这么多才华横溢的组员一起组成一个团队共同进步,一起克服困难。我争取发挥自己的全部能力与余热去努力完成项目的要求,期望不仅能在这次团队作业中学到知识,更能够与其他组员增进交流。付博扬我是10061153付博扬,很荣幸成为76er的一员,不得不很惭愧的说我无论对于C++还是C#都是完全的菜鸟级,但我也会努力的,即使编程方面不如其他的“大腿”,但我也绝不会成为后腿,其他方面也会给出自己的想法,促进76er这一大家庭团结和睦,任务进展顺利。仰望ing~梁鸿我叫梁鸿,是100617班的一名学生,喜欢打篮球、乒乓球,在软件工程的团队分组中加入了“76er”这个团队,在我们团队之前
阅读全文
摘要:作为一个团队,自然是一体的,所以要摒弃个人开发的不良习惯,互帮互助,共同进步。以期望在项目过程中能够不使一个人掉队,不因一个人的工作而使全队进度拖延。所以在分工的基础上还是要互帮互助,团队整体的分数即每个人的分数。但老师要求每个人分数都必须不同,故虽每个人都不同,但差距皆不大,以示团队之核心。所以假设团队总分120分,小组六人。第一贡献者:22.5分第二贡献者:21.5分第三贡献者:20.5分第四贡献者:19.5分第五贡献者:18.5分第六贡献者:17.5分至于贡献者的排名顺序可由组员投票投出。
阅读全文
摘要:什么事情,只要参与的人多了,就会在操作上带来很多的复杂变化。我有这样的感触,是从上次的课堂游戏开始的。虽然只是一次游戏,但大家都很认真,于是,思想的碰撞就此开始了。每个人都有自己的想法,认为自己是对的,可以带领团队走向成功,这时我们就试图说服队友,希望自己的想法可以得到贯彻;但每个人又是执着的,哪怕听着别人的想法也会下意识从否定开始思考。就这样一个简单的游戏,就让我们犹豫了5分钟,要不是时间限制,可能还会更长。但最终我们取得了第二的成绩,这是对我们努力的肯定,同时也反映出,对于我们中的一些一开始就持有正确答案的同学来说,团队也降低了他的效率。此次的结对作业也是这样。有一个队友,难免就会有惰性,
阅读全文
摘要:时隔两周,再写作业总结有点晚,但也很有意义。一是充实小组博客,二是验证一句话”温故而知新,可以为师矣“。上次博客简要写了我的程序结构和思路,在此先纠正一下。采用sortedlist做数据结构的方法效率实在太低,在作业截止日期前,我改写了代码,用hashtable存储每个单词和词频,确切来说是以单词的变型(全部大写后)为查找的键,以单词本身和词频一起的一个集合作为值存储。本来简单模式和拓展模式可以用两种数据结构,分别采用不同的处理过程,我没有这么做。关于代码优化,说一些自己的心得,当然不懂得地方更多,求教指正。样本一定要大量,不然性能分析是什么都分析不出来的。性能曲线和计算机硬件应该也是有关系的
阅读全文

浙公网安备 33010602011771号