2010 年 1月 27 日随笔档案 - tianxin

2010年1月27日

摘要：一般我都习惯于使用curl进行页面的抓取，因为curl可以模拟一系列动作，例如登录一个网站，跳转到信息抓取页面，通过正则表达式或者一系列方法抓取自己想要的信息数据。假如某个站点没有这么复杂，可以通过直接访问得到结果的话不如采用 file_get_contents 这个函数来抓取页面数据。例如，访问54master论坛，想抓取首页里所有h3标记内的元素。 [代码] 阅读全文

posted @ 2010-01-27 15:44 tianxin 阅读(7059) 评论(0) 推荐(0)

甜心

技术无极限

公告