摘要: 由于http是无状态的,向服务器发送请求后,服务器解析请求然后返回对应的响应,服务器负责完成这个过程是完全独立的,不会记录前后状态的变化,因此缺少状态记录。 我们分别需要会话和Cookies的技术来保持HTTP连接状态。 Cookie和session都是用于保存用户的信息 Cookies会保存到浏览 阅读全文
posted @ 2018-09-03 15:04 kumata 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 一:获取网页 发送http请求获得网页源码 可使用库:urlib / requests 二:提取信息 获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。 最常用最通用:正则表达式 根据一些网页节点属性的库:Beautiful Soup / pyquery / lxml 对于使用Aj 阅读全文
posted @ 2018-09-03 14:56 kumata 阅读(170) 评论(0) 推荐(0) 编辑