博客园 - 黄耀
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=178023
2013-02-06T07:38:19Z
黄耀
https://www.cnblogs.com/yorkhuang/
feed.cnblogs.com
https://www.cnblogs.com/yorkhuang/archive/2013/02/06/2907072.html
编写chrome插件采集图片 - 黄耀
pic.hao123.com的图片看起来貌似很不错, 想把它做到Android手机上展示。首先要考虑的问题如果采集这些图片信息(如链接、名称、介绍等)并存储到自己的服务器。有一个简单的方法就是使用浏览器插件的方式,定向爬取这个网站上的网页,并分析html元素,提取所需要的信息,并生成json数据,发送到自己的服务器,由服务器存入数据库。 简单的定向爬取可以把所有链接入栈并标记是否已经访问过,并对每个链接进行分析,一些不符合规则的链接或者已经访问过的链接可以直接跳过。 使用什么样的规则来分析网页并提取元素呢? 一是使用正则表达式,这个玩意很强大,不过编写起来有点麻烦,特别是用来分析元素时,得对.
2013-02-06T07:37:00Z
2013-02-06T07:37:00Z
黄耀
https://www.cnblogs.com/yorkhuang/
【摘要】pic.hao123.com的图片看起来貌似很不错, 想把它做到Android手机上展示。首先要考虑的问题如果采集这些图片信息(如链接、名称、介绍等)并存储到自己的服务器。有一个简单的方法就是使用浏览器插件的方式,定向爬取这个网站上的网页,并分析html元素,提取所需要的信息,并生成json数据,发送到自己的服务器,由服务器存入数据库。 简单的定向爬取可以把所有链接入栈并标记是否已经访问过,并对每个链接进行分析,一些不符合规则的链接或者已经访问过的链接可以直接跳过。 使用什么样的规则来分析网页并提取元素呢? 一是使用正则表达式,这个玩意很强大,不过编写起来有点麻烦,特别是用来分析元素时,得对. <a href="https://www.cnblogs.com/yorkhuang/archive/2013/02/06/2907072.html" target="_blank">阅读全文</a>