2020最新最全Python面试题整理（四）

1 python3.5语言中enumerate的意思是
对于一个可迭代的（iterable）/可遍历的对象（如列表、字符串），enumerate将其组成一个索引序列，利用它可以同时获得索引和值
enumerate多用于在for循环中得到计数

2 你是否了解谷歌的无头浏览器？
无头浏览器即headless browser，是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有，只是看不到界面而已。
Python中selenium模块中的PhantomJS即为无界面浏览器（无头浏览器）:是基于QtWebkit的无头浏览器。

3 scrapy和scrapy-redis的区别？
scrapy是一个爬虫通用框架，但不支持分布式，scrapy-redis是为了更方便的实现scrapy分布式爬虫，而提供了一些以redis为基础的组件
为什么会选择redis数据库？
因为redis支持主从同步，而且数据都是缓存在内存中，所以基于redis的分布式爬虫，对请求和数据的高频读取效率非常高
什么是主从同步？
在Redis中，用户可以通过执行SLAVEOF命令或者设置slaveof选项，让一个服务器去复制（replicate）另一个服务器，我们称呼被复制的服务器为主服务器（master），而对主服务器进行复制的服务器则被称为从服务器（slave），当客户端向从服务器发送SLAVEOF命令，要求从服务器复制主服务器时，从服务器首先需要执行同步操作，也即是，将从服务器的数据库状态更新至主服务器当前所处的数据库状态

4 scrapy的优缺点？为什么要选择scrapy框架？
优点：
采取可读性更强的xpath代替正则强大的统计和log系统同时在不同的url上爬行支持shell方式，方便独立调试写middleware,方便写一些统一的过滤器通过管道的方式存入数据库
缺点：
基于python爬虫框架，扩展性比较差，基于twisted框架，运行中exception是不会干掉reactor，并且异步框架出错后是不会停掉其他任务的，数据出错后难以察觉

5 scrapy和requests的使用情况？
requests 是 polling 方式的，会被网络阻塞，不适合爬取大量数据
scapy 底层是异步框架 twisted ，并发是最大优势

posted @ 2020-10-09 09:26 头秃python程序员阅读(134) 评论(0) 收藏举报

刷新页面返回顶部

2020最新最全Python面试题整理（四）

公告