LePenseur - 博客园

2023年4月5日

摘要：多任务爬虫线程进程回顾实现多任务爬虫的方式：多进程/多线程进程：是计算机当中最小的资源分配单位线程：是计算机当中可以被CPU调度的最小单位我们执行一个python代码的时候，在计算机的内部会创建一个进程，在进程当中会创建一个线程，代码是由线程去执行的创建进程/线程 import time 阅读全文

posted @ 2023-04-05 00:47 LePenseur 阅读(34) 评论(0) 推荐(0)

07selenium

摘要： selenium 动态网页爬虫：分析接口，然后通过代码请求这个接口使用selenium+webdriver模拟浏览器获取数据 1. selenium和webdriver Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium可以直接调用浏览器，它支持所有主阅读全文

posted @ 2023-04-05 00:47 LePenseur 阅读(44) 评论(0) 推荐(0)

06数据存储peewee

摘要：数据存储一、MySQL 1.1 pymysql 建立数据库连接db = pymysql.connect(...) 参数host：连接的mysql主机，如果本机是'127.0.0.1' 参数port：连接的mysql主机的端口，默认是3306 参数database：数据库的名称参数user：连接的阅读全文

posted @ 2023-04-05 00:46 LePenseur 阅读(62) 评论(0) 推荐(0)

05bs4

摘要：二、BeautifulSoup4 和lxml一样，BeautifulSoup4也是一个HTML/XML的解析器，主要的功能是解析和提取HTML/XML数据。安装：pip install bs4 由于BS4解析页面时需要依赖文档解析器，所以还需要安装lxml作为解析库解析原理 - 数据解析的原理：阅读全文

posted @ 2023-04-05 00:44 LePenseur 阅读(49) 评论(0) 推荐(0)

04xpath

摘要：数据提取 lxml和xpath lxml是Python的第三方解析库，完全使用Python语言编写，它对Xpath表达式提供了良好的支持，能够了高效地解析HTML/XML文档。 XPath即为XML路径语言，它是一种用来确定XML文档中某部分位置的语言，同样适用于HTML文档的检索。安装：pip 阅读全文

posted @ 2023-04-05 00:44 LePenseur 阅读(41) 评论(0) 推荐(0)

03请求参数的两种方式

摘要： get请求 # 请求参数用params params={ 'type': '24', 'interval_id': '100:90', 'action':'', 'start': '1', 'limit': '20' } response = requests.get(url=url,params= 阅读全文

posted @ 2023-04-05 00:43 LePenseur 阅读(45) 评论(0) 推荐(0)

02requests的使用

摘要： requests的使用一、requests模块 1.1 request模块的安装在CMD命令行中执行如下命令进行在线安装 pip install requests 由于网络的不稳定性有时会导致下载失败，在下载的时候我们可以加上第三方源进行下载清华：https://pypi.tuna.tsing 阅读全文

posted @ 2023-04-05 00:42 LePenseur 阅读(47) 评论(0) 推荐(0)

01爬虫初识

摘要：初识爬虫一、爬虫介绍爬虫主要的功能就是抓取网络数据的程序。本质就是用程序模拟人使用浏览器访问网站，并将所需要的数据抓取下来。爬虫可分为两大类：通用网络爬虫、聚焦网络爬虫通用网络爬虫：是搜索引擎的重要组成部分，百度搜索引擎，其实可以更形象地称之为百度蜘蛛（Baiduspider），它每天会在海阅读全文

posted @ 2023-04-05 00:41 LePenseur 阅读(153) 评论(0) 推荐(0)

2022年12月9日

数据库介绍

摘要：数据库含义：存储和管理数据的仓库，用户可以进行增删改查等操作本质：一款基于网络通信的应用程序分类：关系型数据库：数据之间彼此有关系或约束，通常以表格形式存储，存储类型的限制 eg：mysql，Oracle，db2，sql server 非关系型数据库：数据通常以key—value方式存储 e 阅读全文

posted @ 2022-12-09 20:12 LePenseur 阅读(126) 评论(0) 推荐(0)

数据库的简单操作

摘要：数据库常识 1.登录数据库：mysql -h 127.0.0.1 -P 3306 -uroot -p 简写为 mysql -uroot -p 说明： -h 后面是主机名（ip） -P 后面是端口号 -u 后面是登录的用户名 -p 后面是登录密码，如果不填写，回车之后，会提示输入密码 2.输入错误内容阅读全文

posted @ 2022-12-09 20:10 LePenseur 阅读(17) 评论(0) 推荐(0)

woshijcx

公告