随笔分类 - 网页抓取
摘要:模拟浏览器登陆的基本思路与做法 最近在新建的爬虫、自然语言处理群320349384中讨论模拟登陆的比较多,我接到的技术支持客户中关于这块的问题,尤其是共性的思路问题,非常突出,现简单总结如下,希望对这块感兴趣的人们少走弯路。 模拟登陆, 即指通过程序设计的方式去模拟人为操作浏览器去登陆相关站点的操作过程,从而达到人为操作可以看到的数据的目的。其技术模块总体分为两大块,即一、抓包分析,二、程序模拟实现 一、抓包分析 1) 抓包分析工具:各个浏览器有不同的搭配,看个人习惯了。 我比较推荐用IE9及以上+HttpWatch8.5版本及以上。IE9以上的IE Developer可以方便辅助做之后...
阅读全文
摘要:一 概述:HttpWatch强大的网页数据分析工具.集成在Internet Explorer工具栏.包括网页摘要.Cookies管理.缓存管理.消息头发送/接受.字符查询.POST 数据和目录管理功能.报告输出 HttpWatch 是一款能够收集并显示页页深层信息的软件。它不用代理服务器或一些复杂的网络监控工具,就能够在显示网页同时显示网页请求和回应的日志信息。甚至可以显示浏览器缓存和IE之间的交换信息。集成在Internet Explorer工具栏。二 安装HttpWatch略过^_^三 基本功能介绍启动Httpwatch从IE的“查看”—“浏览器栏”—“HttpWatch”启动HttpWa
阅读全文
摘要:我是只很菜很菜的小鸟。刚上班,有这个一个需求。要我抓取别的网站的数据。我根据用户密码登录一个网站成功后,生成一个cookie值。我已经获取到了。然后要带上这个cookie值进行下一页面的访问。问题就出在这里。不知道怎么带上cookie值进行访问。卡在这里了。不是说httpclient能自动管理cookie么?以前从没接触过这个httpclient和httpparser。如果我不访问该网站的下一页面,我能访问到别的网站。但是一访问该网站的下一页面时。控制台输出的信息html脚本里就显示你没有登录。。下面是我的源代码。躬请各位大师帮忙解决。刚注册的账号。没有多少分,也不知道怎么弄。请大家帮帮忙。.
阅读全文
摘要:近来由于毕设需要,重新修改了新浪微博爬虫废了不少劲,希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比,最大的改动在于cookie获取时候的模拟url的请求过程,其难点之一的密码加密并没有任何改动,因为此次的改动主要是重新理顺它的cookie获取过程中的几个url请求的节点。 一、url请求流 1、“http://www.weibo.com”,获取login_sid_t,uug等两个参数,在放入后续的请求cookie中。 2、“HttpGet hg = new HttpGet( "http://login.sina.com.cn/sso/prelogin.php?entr
阅读全文

浙公网安备 33010602011771号