面试题1

1.列举python常用的数据结构

字典，集合，列表，字符串，元组

2.字典、集合、列表的区别

列表：

(1)任意对象的有序集合

列表是一组任意类型的值，按照一定顺序组合而成的

(2)通过偏移读取

组成列表的值叫做元素，每一个元素被标识一个索引，第一个索引是0，序列的功能都能实现

(3)可变长度，异构以及任意嵌套

列表中的元素可以是任意类型，甚至是列表类型，也就是说列表可以嵌套

(4)可变的序列

支持索引、切片、合并、删除等操作，塔门都是在原处进行修改列表

(5)对象引用数组

列表可以当成普通的数组，每当用到引用时，Python总是会将这个引用指向一个对象，所以程序只需要处理对象的操作。当把一个对象赋给一个数据结构元素或变量名时，Python总是会存储对象的引用，而不是一个对象的拷贝。

元组：

(1)任意对象的有序集合

与列表相同

(2)通过偏移存取

与列表相同

(3)属于不可变序列类型

类似于字符串，但元组是不可变的，不支持在列表中任何原处修改操作，不支持任何方法调用

(4)固定长度、异构、任意嵌套

固定长度即元组不可变，在不被拷贝的情况长度下固定，与其他同列表

和列表项比较

比列表操作速度快；对数据“写保护”；可用于字符串格式化中，可作为字典的key

字典

(1)通过键而不是偏移量来读取

字典就是一个关联数组，是一个通过关键字索引的对象的集合，使用键-值（key-value）进行存储，查找速度快

(2)任意对象的无序集合

字典中没有特定顺序，以键为象征

(3)可变长、异构、任意嵌套

同列表，嵌套可以包含列表和其他字典等

(4)属于可变映射类型

因为是无序，故不能进行序列操作，但可以在远处修改，通过映射到值。字典是唯一内置的映射类型（键映射到对象）

(5)对象引用表

字典存储的是对象引用，不是拷贝，和列表一样。字典的key是不能变的。list不能作为key，字符串、元组、整数等都可以

和列表相比较，字典的特性：

1.查找和插入的速度极快，不会随着key的增加而增加

2.需要占用大量的内存，内存浪费多

但是列表相反：

1.查找和插入的时间随着元素的增加而增加

2.占用空间小，浪费内存很少

所以字典是用空间来换取时间的一种方法

集合

1.是一组key的集合，但不存储value，并且key不能重复

2。重复元素在集合中自动被过滤

集合可以看成数学意义上的无序和无重复元素的集合，因此，两个集合可以做数学意义上的交集、并集等操作

和字典对比

1.集合和字典的唯一区别仅在于没有存储对应的value

2.集合的原理和字典一样，同样不可以放入可变对象，因为无法判断两个变对象是否相等，也就无法保证集合内部“不会有重复元素”

数据抓取时，常用的包和基础框架是什么

Requests

Selenium

Pyppetter

Aiohttp

Urlib

Gevent

Lxml

Pyquery等等

包：Scrapy Pysipder

HTTP是一个基于TCP/IP通信协议来传递数据，包括html文件、图像、结果等，即是一个客户端和服务器端请求和应答的标准

HTTP协议特点

1.http无连接：限制每次连结只处理一个请求，服务端完成客户端的请求后，即断开连接。（传输速度快，减少不必要的连结，但也意味着每一次访问都要建立一次连结，效率降低）

2.http无状态：对事物处理没有记忆能力。每一次请求都是独立的，不记录客户端任何行为（优点解放服务器，但可能每次请求会传输大量重复的内容信息）

3.客户端/服务端模型：客户端支持web浏览器或其他客户端，服务器通常是apache或list等

4.简单快捷

5.灵活：可以传输任何类型的数据

客户请求消息：

客户端发送一个请求到服务器的请求消息包括以下格式：

请求行，请求头部，空行，请求数据

服务器响应消息：

服务器响应包括如下格式：

状态行，消息报头，空行，响应正文

http协议常用的方法是：

1	GET	发送请求来获得服务器上的资源，请求体中不会包含请求数据，请求数据放在协议头中。另外get支持快取、缓存、可保留书签等。幂等
2	POST	和get一样很常见，向服务器提交资源让服务器处理，比如提交表单、上传文件等，可能导致建立新的资源或者对原有资源的修改。提交的资源放在请求体中。不支持快取。非幂等
3	HEAD	本质和get一样，但是响应中没有呈现数据，而是http的头信息，主要用来检查资源或超链接的有效性或是否可以可达、检查网页是否被串改或更新，获取头信息等，特别适用在有限的速度和带宽下。
4	PUT	和post类似，html表单不支持，发送资源与服务器，并存储在服务器指定位置，要求客户端事先知道该位置；比如post是在一个集合上（/province），而put是具体某一个资源上（/province/123）。所以put是安全的，无论请求多少次，都是在123上更改，而post可能请求几次创建了几次资源。幂等
5	DELETE	请求服务器删除某资源。和put都具有破坏性，可能被防火墙拦截。如果是https协议，则无需担心。幂等
6	CONNECT	HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。就是把服务器作为跳板，去访问其他网页然后把数据返回回来，连接成功后，就可以正常的get、post了。
7	OPTIONS	获取http服务器支持的http请求方法，允许客户端查看服务器的性能，比如ajax跨域时的预检等。
8	TRACE	回显服务器收到的请求，主要用于测试或诊断。一般禁用，防止被恶意攻击或盗取信息。

get和post区别

	GET	POST
点击返回/刷新按钮	没有影响	数据会重新提交
缓存/添加书签	可以	不可以
历史记录	有	没有
编码类型	application/x-www-form-urlencoded	application/x-www-form-urlencoded 或 multipart/form-data。为二进制数据使用多重编码
是否幂等	幂等	非幂等
长度限制	http协议没有限制，但是实际浏览器或服务器有(最大2048)	理论上没有，可能会收到服务器配置或内存限制
数据类型限制	只能ASCII，非ascii都要编码传输	没有限制，允许二进制数据
安全性	数据全部展示在url中，不安全	相比get，通过request body传递数据，比较安全
可见效	可见	不可见

PATCH 和 PUT 比较

	PATCH	PUT
是否幂等	非幂等	幂等
粒度	局部，最小粒度，节约网络带宽	所有

简单列举一下scrapy常用的组件

Spiders(爬虫类)

Scrapy Engine(引擎)

Scheduler(调度器)

Downloader(下载器)

Item Pipeline(处理管道)

spiders：1.告诉scrapy下载哪些url(requests),2.将设置好的item通过yield item,这个item就会由pipelines来进行处理

这两种主要由yield来做的，所以可以yield两种类容

1.yield scrapy.Request:():就是发送请求

2.yield item:就是处理item

调度器:将spiders组件发送过来的requests排队入列，将来就从这个队列中一个一个发送给下载器进行下载

这个调度器是通过优先级队列来实现的

下载器：将从调度器过来的requests下载好，并将下载好的responses传递给该request所对应callback回调函数来处理

ltempipelines:传输数据的管道。主要作用就是处理从spider传递过来的item。默认是由process_item这个方法来处理的

scrapy引擎:组件之间的交互都是由引擎来完成的，组件之间是没有联系的，这是为了降低组件之间的耦合

大众点评是用什么技术做的

一个url组成

第一部分是协议(或称为服务方式)

第二部分是存有该资源的主机IP地址(有时也包括端口号)

第三部分是主机资源的具体地址

http和https的区别

https协议需要到ca申请证书，一般免费证书较少，因而需要一定费用

http是超文本传输协议，信息是明文传输，https则具有安全性的ssl加密传输协议

http和https使用的是完全不同的连接方式，用的端口也不一样，前者是80，后者是443

http的连结很简单，是无状态的；https协议是由SSL+Http协议构建的可进行加密传输、身份认证的网络协议，比http协议安全

postman是干什么用的

postman是一种网页调试与发送网页http请求的chrome插件，我们可以用来很方便的模拟get或者post或者其他方式的请求来调试接口

fiddler是干什么用的

对我们来说可以使用fiddler做映射，把远程的js的代码下载到本地进行修改，然后加载网页走本地的js文件。也可以修改一些参数进行调试

抓包工具可以做什么？

1.抓包(Web端和APP端数据包)

2.做接口文档(前提是需要有前端页面)

3.弱网测试(针对APP端)

4.安全测试(模拟数据篡改)

5.做接口测试

6.做并发测试(指标单一，不专业)

7.定位bug(主要针对前端/后端)

http中的cookies是干什么用的

Cookie的作用：Cookie是用于维持服务端会话状态的，通常由服务端写入，在后续请求中，供服务端读取。

HTTP请求，Cookie的使用过程

1.server通过HTTP Response中的“Set-Cookie：header”把cookie发送给client

2.client把cookie通过HTTP Request 中的"Cookie:header"发送给server

3.每次HTTP请求，Cookie都会被发送

http请求发送cookies的条件

1.本地已经缓存有cookies

2.根据请求的URL来匹配cookies的domain、path属性，如果都符合才会发送[url]的匹配规则请查看]

举个例子:访问www.baidu.com时，就不发送www.qq.com的cookies

Cookies查看与存放路径

Cookies查看：大家可以使用抓包工具，这种工具就不多话，网上搜索出很多，使用这些工具中可以清晰的看到Http Request中的Cookie，和Http Response中的cookie

这是我做应用的沙盒路径:/Users/a-hing/Library/Developer/CoreSimulator/Devices/FECA1CCE-4F9D-42B7-AC84-EEB94171E37C/data/Containers/Data/Application/79CEED3E-F7D9-4589-BEA5-44E1345CA71A/Library/cookes

大家可以去到自己应用的沙盒路径下，打开cookies看看里面的内容。

网站的登陆与App的自动登陆原理：

用户在连接服务器时，服务器生成一个唯一的SessionID 。而SessionID这一数据则是保存到客户端，

用Cookie保存的，用户提交页面时，会将 SessionID提交到服务器端，来存取Session数据。

来源https://blog.csdn.net/disuizhi5268/article/details/101729516

解析网页中的数据，是怎么做的

xpath

beautiful soup

pyquery

提取网页里面的链接地址，怎么提取

根据节点或连结地址提取

大众点评的字体加密方法

selenium的几种等待方式是

空气质量检测网站的做法

scrapy的中间件写过吗，写的哪几个中间件，干什么的

https://zhuanlan.zhihu.com/p/42498126

怎么加的代理，在scrapy中

见上题

posted @ 2022-03-04 23:16 来自苏格兰阅读(64) 评论(0) 收藏举报

刷新页面返回顶部

来自苏格兰

面试题1

PATCH 和 PUT 比较

公告