白天的影子

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
上一页 1 2 3 4 5 6 7 ··· 9 下一页

2021年1月8日

摘要: By支持的定位: CLASS_NAME = 'class name' CSS_SELECTOR = 'css selector' ID = 'id' LINK_TEXT = 'link text' NAME = 'name' PARTIAL_LINK_TEXT = 'partial link tex 阅读全文
posted @ 2021-01-08 07:01 白天的影子 阅读(585) 评论(0) 推荐(0) 编辑

摘要: 导入包 import pandas as pd import numpy as np 提供高性能医用的数据类型和分析工具 pandas基于numpy实现,常与numpy和matplotlib一同使用 pandas的核心数据结构 series是一种类似于一维数组的对象,它由一维数组以及一组与之相关的数 阅读全文
posted @ 2021-01-08 06:33 白天的影子 阅读(373) 评论(0) 推荐(0) 编辑

摘要: 导入numpy库: import numpy as np python的一个科学计算库的一个基础包,包含了强大的N维数组对象和向量运算 数组创建,可以使用array函数从常规的python列表和或元组中创建数组,得到的类型是从列表元素中农推导出来的 使用array函数创建数组,他接受一切序列型的对象 阅读全文
posted @ 2021-01-08 06:25 白天的影子 阅读(249) 评论(0) 推荐(0) 编辑

摘要: 什么是Selenium库 Selenium是自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染的问题 可以用Selenium来完成网页的下拉,点击等等操作。可以完全模拟浏览器加载网页,点击按钮,就像人一样。 如何安装 pip3 install selenium 用法讲解 基本 阅读全文
posted @ 2021-01-08 06:13 白天的影子 阅读(364) 评论(0) 推荐(0) 编辑

摘要: 什么是PyQuery PyQuery是强大又灵活的网页解析库。如果熟悉jQuery的语法,那么PyQuery就是你的绝佳选择 安装PyQuery pip3 install PyQuery 用法讲解 初始化 字符串初始化常用在得到网页源代码,然后进行解析。 html = """ <div> <ul> 阅读全文
posted @ 2021-01-08 05:49 白天的影子 阅读(120) 评论(0) 推荐(0) 编辑

摘要: BeautifulSoup BeautifulSoup是灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可以方便地实现网页信息的提取 安装BeautifulSoup pip3 install beautifulsoup4 BeautifulSoup用法 解析库 解析库使用 阅读全文
posted @ 2021-01-08 05:25 白天的影子 阅读(1654) 评论(0) 推荐(0) 编辑

摘要: 什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、以及这些特定字符的组合,组成一个“规则字符串”,这个规则字符串用来表达对字符串的一种过滤逻辑 Python用re模块实现 在线正则表达式工具 其中有许多常用的正则表达式,非常好用。 一般的网页可以用beauti 阅读全文
posted @ 2021-01-08 04:50 白天的影子 阅读(175) 评论(0) 推荐(0) 编辑

摘要: 什么是Request库 Requests是用Python语言编写,基于urllib,采用Apache2 Licensed开源协议的HTTP库。它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。一句话--Python实现的简单易用的HTTP库。 安装Requests pip3 阅读全文
posted @ 2021-01-08 04:27 白天的影子 阅读(144) 评论(0) 推荐(0) 编辑

2021年1月7日

摘要: Urllib库是python内置的库 什么是Urllib 1. urllib.request 请求模块2. urllib.error 异常处理模块3. urllib.parse url解析模块4. urllib.robotparser robots.txt解析模块 用法 urlopen urllib 阅读全文
posted @ 2021-01-07 22:53 白天的影子 阅读(120) 评论(0) 推荐(0) 编辑

摘要: 实战2:使用selenium爬取淘宝数据,保存在mongodb 配置文件 MONGO_URL = 'localhost' MONGO_DB = 'taobao' MONGO_TABLE = 'yintiao' 爬虫文件 from selenium import webdriver from sele 阅读全文
posted @ 2021-01-07 22:07 白天的影子 阅读(188) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 9 下一页