随笔分类 - 爬虫入门(windows)
windows下的爬虫入门
摘要:robots协议 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”
阅读全文
摘要:注意:抓取内容之前一定要查看下Robots协议 1、准备工作 1》第一步,安装python,安装requests、json库。 2、抓取分析 1》接下来我们打开网页分析下猫眼电影排行榜 2》猫眼电影排行榜的网址(http://maoyan.com/board/4) 3》拉到最下面,可以看到第一页只有
阅读全文
摘要:正则表达式 2018-09-23 16:40:54 正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。 许多程序设计语言都支持利用正则表达式进
阅读全文
摘要:HTTP各种相应的状态码 HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码。它由 RFC 2616 规范定义的,并得到RFC 2518、RFC 2817、RFC 2295、RFC 2774、RFC 4918等规范扩展。 HTTP状态码(HTTP S
阅读全文

浙公网安备 33010602011771号