随笔分类 -  python爬虫

摘要:一DOM节点树 定义: 处理可扩展置标语言的标准编程接口 功能: 动态访问程序和脚本,更新内容,接口,和文档 最小单元: 节点 1.节点获取方法 hasChildNodes(): 判断当前节点是否含义子节点 contains(): 接收节点作为参数,返回布尔值,表示后面节点数量. |方法|功能| | 阅读全文
posted @ 2021-05-13 17:07 唐某人-python 阅读(67) 评论(0) 推荐(0)
摘要:一.网页组成 1.框架 定义: 网页的组织形式,将相互关联的多个网页内容组织到一个浏览器窗口中显示 2.文本 可调配属性: 字体,颜色,字号,底纹,边框等 参数认知: 中文参数: 字体: 宋体, 字号: 9磅或12-14像素 3.图片 JPG(.jpg),GIF(.gif) 4.超链接(URL) 定 阅读全文
posted @ 2021-05-13 17:06 唐某人-python 阅读(77) 评论(0) 推荐(0)
摘要:项目一爬取搜狗搜索引擎 graph LR 指定url >发起请求 >获取响应数据 函数学习 requests.get(url) requests.get:模拟访问信息 url:网址 1-简单爬取搜狗搜索 流程一 :requests指定url url='https://www.sogou.com/' 阅读全文
posted @ 2021-04-27 17:19 唐某人-python 阅读(792) 评论(0) 推荐(0)
摘要:HTTP 1.超文本传输协议 2.无状态链接 一.HTTP访问流程 1.网页端输入网站访问 graph LR 客户端 >htpp请求 graph LR 服务端接受反馈 >返回请求数据 二.HTTP请求方式与过程 1.HTTP请求过程 ①HTTP客户端端发起请求,创建一个访问服务器的端口(默认80端口 阅读全文
posted @ 2020-11-30 17:01 唐某人-python 阅读(138) 评论(0) 推荐(0)
摘要:网络入门爬虫认知 网络爬虫:模拟浏览器上网流程,自动地抓取万维网信息的程序或者脚本 数据挖掘:抓取互联网上的数据 法律认知:法律合法,在使用中有违法的风险 1.爬虫分类 善意爬虫:爬取公开信息,且不运行服务器运行 恶意爬虫: 1.干扰被访网站的运行 2.爬取被法律保护的信息 2.防止违法风险 1.优 阅读全文
posted @ 2020-11-30 16:58 唐某人-python 阅读(288) 评论(0) 推荐(0)