2013 年 2月 6 日随笔档案 - 黄耀

2013年2月

摘要： pic.hao123.com的图片看起来貌似很不错，想把它做到Android手机上展示。首先要考虑的问题如果采集这些图片信息（如链接、名称、介绍等）并存储到自己的服务器。有一个简单的方法就是使用浏览器插件的方式，定向爬取这个网站上的网页，并分析html元素，提取所需要的信息，并生成json数据，发送到自己的服务器，由服务器存入数据库。简单的定向爬取可以把所有链接入栈并标记是否已经访问过，并对每个链接进行分析，一些不符合规则的链接或者已经访问过的链接可以直接跳过。使用什么样的规则来分析网页并提取元素呢？一是使用正则表达式，这个玩意很强大，不过编写起来有点麻烦，特别是用来分析元素时，得对. 阅读全文

posted @ 2013-02-06 15:37 黄耀阅读(777) 评论(0) 推荐(0) 编辑

公告