摘要: HTTP/1.1方法 HTTP1.0中,只有GET和POST,没有其他方法,如果是新网站是可以获取内容 head命令只能返回头部部分,类似于Ping测试网址是否连通 put只能上传最新的内容,patch局部修改 主要是get和Post HTTPS多实现一层S,五层中,最上面是应用层,然后是多出来的安 阅读全文
posted @ 2023-07-12 20:38 墨柠C 阅读(17) 评论(0) 推荐(0)
摘要: 理解网络爬虫 1.1网络爬虫的定义 当今最大的网络是互联网,最大的爬虫就是各类搜索引擎,包括谷歌丶百度等。网络爬虫就是按照一定规则去爬去人类所需要的信息的程序,主要通过对URL的请求来实现。一般来说,从搜索引擎这类爬虫搜索到的信息是非常宽泛的,而且夹杂着各种广告,信息是不纯粹的,也有可能不是我们需要 阅读全文
posted @ 2023-07-10 22:46 墨柠C 阅读(87) 评论(0) 推荐(0)
摘要: 网址https://fanyi.youdao.com/index.html#/ 任意请求后发现,不需要刷新页面就会出现翻译,所以是AJAX请求 POST请求,依次排查data中内容 i:输入的内容(待翻译的) from:翻译语言(自动) to:目标语言 sign会变得值 keyid:翻译元素 固定值 阅读全文
posted @ 2023-07-06 15:57 墨柠C 阅读(233) 评论(0) 推荐(0)
摘要: 列表 切片和字符串一样 起始位置:终止位置:步长 分片赋值 使用=l1的话,赋值会导致l1,l2是同一个值 列表,元素用方括号,元组,元素用圆括号 列表元素是可变的,元组元素不可变 集合中,不用[]的话,只显示不重复的 交集& 合集| 差集- 对称差集^在1或者2中存在,但不同时存在 循环 whil 阅读全文
posted @ 2023-07-05 22:07 墨柠C 阅读(27) 评论(0) 推荐(0)
摘要: 如何创建变量——赋值语句 变量名=表达式 a=b=c=100 赋值同一个数字 a,b,c=1,2,3 赋值多个值 数据类型 数字型 a=1 a=2.0 print(type(a)) 字符串 a='hello' str b='1'+'2'+'3' b=123 列表 a=[1,'two',3.0,'fo 阅读全文
posted @ 2023-07-04 23:00 墨柠C 阅读(33) 评论(0) 推荐(0)
摘要: 模拟浏览器测试工具 一般来说 动态就可以用selenium url简化 只抓关键信息 将一些标识自己的内容都可以删除如 webdriver 模拟浏览器 import导入 他可以有页面交互 如find_element_by_id这样去定位id,xpath,name等 模拟输入文字内容 search_b 阅读全文
posted @ 2023-06-26 19:58 墨柠C 阅读(25) 评论(0) 推荐(0)
摘要: 正则表达式 写回调函数 def (self,response) 阅读全文
posted @ 2023-06-26 19:50 墨柠C 阅读(16) 评论(0) 推荐(0)
摘要: 浏览网页的过程 1.输入网址 2.浏览器向DNS服务商发起请求 3.找到对应服务器 4.服务器解析请求 5.服务器处理最终请求发回去 6.浏览器解析返回数据 7.展示给用户 爬虫策略 广度优先 深度优先 聚焦爬虫 BFS 从根节点开始 沿着树的宽度 深度优先 DFS 尽可能深的搜索树的分支 然后再返 阅读全文
posted @ 2023-06-15 21:05 墨柠C 阅读(12) 评论(0) 推荐(0)
摘要: 一、文件管理 ls [参数] [文件名] -a 查看所有文件 -l 显示所有属性 /文件 显示指定目录内的文件 -i 显示文件名与inode属性 -m 以逗号分隔,水平显示文件信息 -S 依据文件内容大小排序 -t 依据文件最后修改时间排序 cp [参数] 源文件名 目标文件名 复制指定源文件,并定 阅读全文
posted @ 2023-06-01 17:15 墨柠C 阅读(29) 评论(0) 推荐(0)
摘要: level0 XSHELL 直接连接 主机名bandit.labs.overthewire.org 端口 2220 用户名密码为 bandit0 0-1 ls 查看文件 cat 文件名 1-2 ls查看文件名,发现文件名为- 无法时间cat 需要cat./-转义 2-3 ls查看文件名 文件名称有空 阅读全文
posted @ 2023-06-01 13:40 墨柠C 阅读(82) 评论(0) 推荐(0)