随笔分类 -  数据爬虫

工作中的一些数据爬虫问题
摘要:本地VS调试过程中用Selenium WebDriver打开FF浏览器可以正常工作,项目部署至IIS后请求调用浏览器一直提示超时,异常如下: 因为本地调试可以成功,首先排除组件版本问题和浏览器兼容问题,可以大概确定的错误方向是IIS和IIS Express版本之间的权限区别。 查阅资料得知,IIS程 阅读全文
posted @ 2017-12-12 14:57 蜗牛不要快 阅读(1159) 评论(1) 推荐(0)
摘要:处理Http请求时遇到的ContentType为application/json方式,记录下这种Post请求方式下如何传json参数: 阅读全文
posted @ 2017-07-24 10:16 蜗牛不要快 阅读(21131) 评论(0) 推荐(1)
摘要:在又一次http请求过程中,模拟post请求提交form表单数据一直提示部分参数为空,后面检查发现是缺少ContentType:application/x-www-form-urlencoded的原因,趁这个机会学习下。 在Form元素的语法中,EncType表明提交数据的格式 用 Enctype 阅读全文
posted @ 2017-03-17 10:13 蜗牛不要快 阅读(3172) 评论(0) 推荐(0)
摘要:在处理文件的过程中,读取txt文件出现中文乱码。这种情况是由于编码字符不一致导致。 转换后可得正确结果 阅读全文
posted @ 2017-01-06 15:55 蜗牛不要快 阅读(3539) 评论(0) 推荐(0)
摘要:抓取数据的时候碰到科学技术法,查了一些资料,直接贴代码 最后Math.Round(dData,4)是四舍五入保留四位小数 阅读全文
posted @ 2016-12-14 17:55 蜗牛不要快 阅读(10037) 评论(0) 推荐(0)
摘要:1、在抓取百度数据时发现一个问题,如果直接抓取,抓取后的Html内搜索结果会比直接百度显示页面少,研究后发现应该是百度Cookies问题,百度自身访问的时候是构造了一个BAIDUID 如果我把BAIDUID这个Cookies删除,那结果为1条: 而BAIDUIDCookies存在情况下访问则搜索结果 阅读全文
posted @ 2016-11-28 15:26 蜗牛不要快 阅读(270) 评论(0) 推荐(0)
摘要:一、使用第三方工具,其中最著名的是火车头采集器,在此不做介绍。 二、自己写程序抓取,这种方式要求站长自己写程序,可能对对站长的开发能力有所要求了。 本人起初也曾试着用第三方的工具抓取我所需要的数据,由于网上的流行的第三方工具不是不符合我的要求,就是过于复杂,我一时没有搞明白怎么用,后来索性决定自己写 阅读全文
posted @ 2016-11-24 11:13 蜗牛不要快 阅读(2064) 评论(0) 推荐(0)