随笔分类 - python爬虫
摘要:一DOM节点树 定义: 处理可扩展置标语言的标准编程接口 功能: 动态访问程序和脚本,更新内容,接口,和文档 最小单元: 节点 1.节点获取方法 hasChildNodes(): 判断当前节点是否含义子节点 contains(): 接收节点作为参数,返回布尔值,表示后面节点数量. |方法|功能| |
阅读全文
摘要:一.网页组成 1.框架 定义: 网页的组织形式,将相互关联的多个网页内容组织到一个浏览器窗口中显示 2.文本 可调配属性: 字体,颜色,字号,底纹,边框等 参数认知: 中文参数: 字体: 宋体, 字号: 9磅或12-14像素 3.图片 JPG(.jpg),GIF(.gif) 4.超链接(URL) 定
阅读全文
摘要:项目一爬取搜狗搜索引擎 graph LR 指定url >发起请求 >获取响应数据 函数学习 requests.get(url) requests.get:模拟访问信息 url:网址 1-简单爬取搜狗搜索 流程一 :requests指定url url='https://www.sogou.com/'
阅读全文
摘要:HTTP 1.超文本传输协议 2.无状态链接 一.HTTP访问流程 1.网页端输入网站访问 graph LR 客户端 >htpp请求 graph LR 服务端接受反馈 >返回请求数据 二.HTTP请求方式与过程 1.HTTP请求过程 ①HTTP客户端端发起请求,创建一个访问服务器的端口(默认80端口
阅读全文
摘要:网络入门爬虫认知 网络爬虫:模拟浏览器上网流程,自动地抓取万维网信息的程序或者脚本 数据挖掘:抓取互联网上的数据 法律认知:法律合法,在使用中有违法的风险 1.爬虫分类 善意爬虫:爬取公开信息,且不运行服务器运行 恶意爬虫: 1.干扰被访网站的运行 2.爬取被法律保护的信息 2.防止违法风险 1.优
阅读全文
浙公网安备 33010602011771号