摘要: 什么是爬虫?这是一篇解释的比较容易理解的博文。 从零学习爬虫,逃不开安装环境。 完成安装环境,下一步就是安装常用的爬虫包了,这里提到主要是这两个包,request 和 BeautifulSoup (美味的汤)这两个包是比较常见的,也比较好用。 import requests from bs4 imp 阅读全文
posted @ 2020-10-30 11:12 头秃python程序员 阅读(294) 评论(0) 推荐(0)
摘要: 虽然国内开设Python的大学并不是很多,但Python的地位同样无可取代的, Python是现在各大领域中,非常重要的语言之一,也被叫做胶水语言,跟其他的编程对比,优势更加明显。 而且对于零基础学习编程语言的人来说,Python是最合适的选择, 说那么多,还是开始正题, 学习Python需要哪些具 阅读全文
posted @ 2020-10-16 10:13 头秃python程序员 阅读(284) 评论(0) 推荐(0)
摘要: Python安装和开发环境的配置1. Python安装(win下) Python直接可以在官网下载(www.python.org) 依次点击Downloads-Windows,会出现Python Releases for Windows,从中选取合适的版本 举个例子:1)选择Python 3.8.0 阅读全文
posted @ 2020-10-15 09:59 头秃python程序员 阅读(137) 评论(0) 推荐(0)
摘要: 编程语言有很多种,Python可以说是其中最受欢迎的一种,入门快、简单易学,也成为了不少编程爱好者的首选语言。不过对于刚刚接触的编程的人来说,在学习Python的时候都会疑惑,Python可以用来干什么? 不太好说,Python可以做的事情有很多种,用途也是非常广泛的,尤其是在以下领域中具有非常重要 阅读全文
posted @ 2020-10-14 10:28 头秃python程序员 阅读(1798) 评论(0) 推荐(0)
摘要: 1 打乱一个排好序的list对象alist? 2 现有字典 d= {‘a’:24,‘g’:52,‘i’:12,‘k’:33}请按value值进行排序? 3 字典推导式 4 请反转字符串 “aStr”? 5 将字符串 “k:1 |k1:2|k2:3|k3:4”,处理成字典 {k:1,k1:2, 阅读全文
posted @ 2020-10-12 09:33 头秃python程序员 阅读(92) 评论(0) 推荐(0)
摘要: 1 说说什么是爬虫协议?Robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其 阅读全文
posted @ 2020-10-10 10:12 头秃python程序员 阅读(82) 评论(0) 推荐(0)
摘要: 1 描述一下scrapy框架的运行机制?从start_urls里面获取第一批url发送请求,请求由请求引擎给调度器入请求对列,获取完毕后,调度器将请求对列交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理,如果提取出需要的数据,则交给管道处理,如果提取出url,则继续执行之 阅读全文
posted @ 2020-10-10 09:16 头秃python程序员 阅读(96) 评论(0) 推荐(0)
摘要: 1 python3.5语言中enumerate的意思是对于一个可迭代的(iterable)/可遍历的对象(如列表、字符串),enumerate将其组成一个索引序列,利用它可以同时获得索引和值enumerate多用于在for循环中得到计数 2 你是否了解谷歌的无头浏览器?无头浏览器即headless 阅读全文
posted @ 2020-10-09 09:26 头秃python程序员 阅读(117) 评论(0) 推荐(0)
摘要: 1 常见的HTTP方法有哪些? GET:请求指定的页面信息,返回实体主体; HEAD:类似于get请求,只不过返回的响应中没有具体的内容,用于捕获报头; POST:向指定资源提交数据进行处理请求(比如表单提交或者上传文件),。数据被包含在请求体中。 PUT:从客户端向服务端传送数据取代指定的文档的内 阅读全文
posted @ 2020-10-08 09:26 头秃python程序员 阅读(103) 评论(0) 推荐(0)
摘要: 1.遇到过得反爬虫策略以及解决方法?1.通过headers反爬虫2.基于用户行为的发爬虫:(同一IP短时间内访问的频率)3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成)4.对部分数据进行加密处理的(数据是乱码)解决方法:对于基本网页的抓取可以自定义headers,添加he 阅读全文
posted @ 2020-09-29 09:47 头秃python程序员 阅读(95) 评论(0) 推荐(0)
点击右上角即可分享
微信分享提示