文章分类 - B00 Python
摘要:> 读书网是一个用来练习爬虫非常不错的网址,没有严格的反爬手段,当然我们应该要以学习的目的去练习,而不应对网站的恶意攻击 读书网网址:https://www.dushu.com/ [toc] ## 1. 传统方法 - 建立项目: 查看标签属性,选中1号区激活选择箭头,点
阅读全文
摘要:> selenium 是一个 web 的自动化测试工具,能模仿人为操作,进行网页的浏览,刷新,标签的点击,输入文字到搜索框,滑动侧边滚动条等一系列操作 ## 1. 安装selenium库 - windows:`pip install selenium` ## 2. 安装 Chrome浏览器 - 也可
阅读全文
摘要:> 介绍了一些基本的爬虫用法,下面根据所学做一些案例。tip:由于网站会不断更新迭代,所以网站中的标签,内容可能有所改变,程序可能发生报错,仅为学习提供思路 **!!! 注意:文档的保存路径需要改变,否则报错 !!!** ## 1. BeautifulSoup爬取读书网 ```python impo
阅读全文
摘要:### 11.1-随机请求头 网址:http://www.useragentstring.com/pages/useragentstring.php 里面有各种请求头,下图选择了chrome类型的请求头 ,其他为空白字符 import re data_list = ["\n \t data1 \n
阅读全文
摘要:```python # 导入相应的库 from bs4 import BeautifulSoup soup = BeautifulSoup(data,'lxml') ``` ### 6.1-find方法 ```python # 只查找第一个遇到的 title title = soup.find(na
阅读全文
摘要:[toc] 点击查看代码 ``` # html数据赋值给data data = ''' boookone Giada De Laurentiis 2005 30.00 booktwo J K. Rowling 2005 29.99 bookthree James 2001 40 bookfour F
阅读全文
摘要:[toc] 点击查看代码 ``` # 数据 data = '''{"store": { "book": [ { "category": "reference", "author": "李白", "title": "《将进酒》", "price": 9.5 }, { "category": "fict
阅读全文
摘要:[toc] 点击查看代码 ``` # 一段str类型的数据,赋值为books books = ''' Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 XQuery Kick St
阅读全文
摘要:[toc] ### 3.1-普通使用 ```python import requests url = 'https://movie.douban.com/top250' # 伪装成浏览器 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;
阅读全文
摘要:[toc] ### 2.1-普通用法 ```python # urllib 是python自带库 import urllib from urllib import request url = 'http://www.baidu.com/' response = urllib.request.urlo
阅读全文

浙公网安备 33010602011771号