03 2013 档案
摘要:爬虫主要用来做数据采集,又名网络蜘蛛,内容网站很多就是用爬虫来抓取数据的。本系列(现在还不知道有几篇)旨在实现一个基本的爬虫程序(框架)。开发语言:C# 爬虫是要从源源不断的抓取到的页面中过滤出我需要的目标数据。既然要源源不断的抓取数据,那么我们就要有一个各个页面的URL的集合,去模拟访问这些URL,来分析返回的数据,从而再根据我们分析的HTML DOM结构获取到我们需要的数据。 URL的获取,通常,我们应该有一个Root节点,也就是根URL,然后就像树形结构一样去遍历他的各个子节点。说的形象一点,比如,一个网站的首页,上面有各个导航的URL1、URL2,URL3……也就是说只要我们获...
阅读全文
摘要:上一篇中我们已经把界面给整出来了,先运行一下看看。 虚拟机启动的有点慢,原来是C盘空间不够了。。。唉,以后系统盘分区至少得50G才行,这么多开发环境太占空间了。注:系统盘可用空间过少,或者内存不够的情况下虚拟机可能不能正常启动。好了,虚拟机自动开机,系统启动后会自动运行我们的程序: 乍一看还...
阅读全文
摘要:时隔半年,再次继续写安卓开发的第二篇,我都不好意思了,中间发生了太多事,一直没日没夜的加班。。。说到底还是自己太懒了,废话不多说,正题。前一篇是环境搭建,这一篇主要介绍基础知识。接触一个陌生的东西,我一般比较喜欢直接看实例,进而逐渐了解各个细节,感觉这样学习比较快,而且可以快速获得成就感。(个人意见...
阅读全文

浙公网安备 33010602011771号