随笔分类 - 信息抽取
摘要:抓取网页信息时,有一个一直困扰我的问题,那就是有些网页的信息是动态生成的,网页载入后,接着执行js,js从服务器端获取数据后填充到网页,现在这种网页实现特别比较多,归功于ajax技术的使用了,用这种技术生成的网页,单靠一个网址是没办法获取网页的信息,火车采集器在这方面还没有去做什么工作吧,今天问了群里的哥们,他们也有这么方面的经验,特别是TommGG这个牛人,下面是他们的聊天记录。。。
转自:http://www.elooog.cn/post/61.html
阅读全文
摘要:最近公司需要开发一个简历导入功能,类似博客搬家或者邮箱搬家,之前抓取信息是利用火车采集器,但是简历导入功能需要用户登陆以后才能获取简历数据,无奈只好自己开发了。
阅读全文
摘要: 前段时间我想自己开发个信息采集器,因为在学校曾做个一个蜘蛛程序,有些基础,最大的难题就是如何对页面的信息进行分析,进而抽取数据,但是由于时间原因,我没有去着手开发,公司还是看重成本 的,有现成的东西不用,花那么大力气开发它没意义,所以那位牛人给提了建议,用火车采集器……
阅读全文

浙公网安备 33010602011771号