摘要:
HTTP请求的GET方法可以用来抓取网页。 HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则,计算机专家设计出HTTP,使HTTP客户(如Web浏览器)能够从HTTP服务器(Web服务器)请求信息和服务,HTTP目前协议的版本是1.1。HTTP是一种无状态的协议,无状态是指Web浏览器和Web服务器之间不需要建立持久的连接,这意味着当一个客户端向服务器端发出请求,然后Web服务器返回响应(response),连接就被关闭了,在服务器端不保留连接的有关信息,HTTP遵循请求(Request)/应答(Response)模型。Web浏览器向Web. 阅读全文
posted @ 2013-05-30 21:22
路过你的苦
阅读(2163)
评论(0)
推荐(0)
摘要:
1.抓取内容搜索引擎基本框架有了,但是收录些什么内容才有意义呢,新闻和博客是我最初的两个想法,抓取新闻可以做一个类似百度新闻(http://news.baidu.com/)的平台,最后发现难度略大,加以感觉意义不大,遂无功而返。基于我平时搜索技术问题时对CSDN博客的内容比较信任甚至偏爱,最终选择抓取博客园、CSDN、月光博客等技术博客文章。2.如何抓全网页抓全是考核爬虫系统最重要的指标之一,如果网页都没收录,谈何查询,下面以博客园、CSDN、月光博客为例一一讲解。2.1博客园http://www.cnblogs.com(1)确定抓取博客园/编程语/cpp文章。种子urlhttp://www. 阅读全文
posted @ 2013-05-30 17:10
路过你的苦
阅读(383)
评论(0)
推荐(0)
摘要:
360公司简介奇虎360科技有限公司(美国纽约证券交易所NYSE:QIHU,以下简称360)是中国领先的互联网和手机安全产品及服务供应商。据第三方统计,按照用户数量计算,360是中国前三大互联网公司之一。中国领先的互联网安全品牌360致力于通过提供高品质的免费安全服务,为中国互联网用户解决上网时遇到的各种安全问题。面对互联网时代木马、病毒、流氓软件、钓鱼欺诈网页等多元化的安全威胁,360以互联网的思路解决网络安全问题。360是免费安全的首倡者,认为互联网安全像搜索、电子邮箱、即时通讯一样,是互联网的基础服务,应该免费。为此,360安全卫士、360杀毒等系列安全产品免费提供给中国数亿互联网用户。 阅读全文
posted @ 2013-05-30 09:09
路过你的苦
阅读(931)
评论(0)
推荐(0)
摘要:
公司介绍百度,全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于2000年1月1日在中关村创建了百度公司。从最初的不足10人发展至今,员工人数超过17000人。如今的百度,已成为中国最受欢迎、影响力最大的中文网站。百度拥有数千名研发工程师,这是中国乃至全球最为优秀的技术团队,这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有 阅读全文
posted @ 2013-05-30 09:00
路过你的苦
阅读(3343)
评论(0)
推荐(0)
浙公网安备 33010602011771号