微信扫一扫打赏支持

随笔分类 -  2_爬虫

摘要:爬取百度网盘资源报user is not authorized, hitcode:119 一、总结 一句话总结: 不知道什么时候开始,百度网盘禁止非客户端环境下载大文件。 所以爬取内容时,将User-Agent修改 本来你请求头中的User-Agent是这么写的 现在修改为 再试试说不定就可以了。 阅读全文
posted @ 2019-09-29 18:09 范仁义 阅读(8363) 评论(0) 推荐(0)
摘要:PHP curl是什么 一、总结 一句话总结:PHP支持的由Daniel Stenberg创建的libcurl库允许你与各种的服务器使用各种类型的协议进行连接和通讯。 libcurl目前支持http、https、ftp、gopher、telnet、dict、file和ldap协议。libcurl同时 阅读全文
posted @ 2019-03-27 23:40 范仁义 阅读(1678) 评论(0) 推荐(0)
摘要:php爬虫最最最最简单教程 一、总结 一句话总结:用的爬虫框架,却是用的自己的例子(因为网站结构的变化,作者的例子不一定好用) 1、发现自己的运行效果和作者的不一样怎么办? 作者的文档很有可能是之前写的,不一样正常,但是看文档的时候尽量全部文档都看一下,否则只看前面几个因为各种原因(比如例子年久失修 阅读全文
posted @ 2019-03-27 16:20 范仁义 阅读(5944) 评论(5) 推荐(1)
摘要:xpath是什么(入门教程) 一、总结 一句话总结:一句话,XPath 是一门在 XML 文档中查找信息的语言。简单来说,html类似于xml结构,但是没有xml格式那么严格。 1、如何获取想要部分的xpath路径? chrome 谷歌浏览器中很方便找到 2、xpath验证工具? google浏览器 阅读全文
posted @ 2019-03-27 15:40 范仁义 阅读(5566) 评论(1) 推荐(1)
摘要:php爬虫框架选用什么 一、总结 一句话总结:phpspider:官方下载地址:https://github.com/owner888/phpspider 1、phpspider能够帮我们解决哪些问题? 如何进行运行前测试? 如何实现模拟登录? 如何实现增量采集? 如果内容页有分页,该如何爬取到完整 阅读全文
posted @ 2018-10-18 15:54 范仁义 阅读(1203) 评论(0) 推荐(0)
摘要:xpath选择器简介及如何使用 一、总结 一句话总结:XPath 的全称是 XML Path Language,即 XML 路径语言,它是一种在结构化文档(比如 XML 和 HTML 文档)中定位信息的语言,XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (pat 阅读全文
posted @ 2018-10-18 15:15 范仁义 阅读(3342) 评论(0) 推荐(0)