摘要:
from lxml import html etree = html.etree # 加载html文件 tree = etree.parse("b.html", etree.HTMLParser()) # ['百度', '谷歌', '搜狗'] # result = tree.xpath("/html 阅读全文
posted @ 2021-12-12 21:03
不是孩子了
阅读(42)
评论(0)
推荐(0)
摘要:
# xpath是在xml文档中搜索内容的一门语言 # html是xml的一个子集 # 安装lxml模块 pip install lxml # xpath解析 from lxml import html etree = html.etree xml = """ <book> <id>1</id> <n 阅读全文
posted @ 2021-12-12 18:30
不是孩子了
阅读(45)
评论(0)
推荐(0)
摘要:
https://m.ivsky.com/ # 1、拿到主页面的源代码,然后提取到子页面的链接地址,href # 2、通过href拿到子页面的内容,从子页面中找到图片的下载地址img -> src # 3、下载图片 import requests from bs4 import BeautifulSo 阅读全文
posted @ 2021-12-12 17:45
不是孩子了
阅读(710)
评论(0)
推荐(0)
摘要:
首先要安装bs4 pip install bs4 from bs4 import BeautifulSoup import requests import csv url = "http://www.maicainan.com/offer/show/id/3242.html" resp = requ 阅读全文
posted @ 2021-12-12 15:59
不是孩子了
阅读(120)
评论(0)
推荐(0)
摘要:
# 先进入到电影天堂首页,可以看到2021必看热片模块 # 随便点击一个连接,会再打开一个网站,网站下面有下载地址,我们要爬取这个下载地址 import requests import re url = "https://dytt89.com/" headers = { "user-agent": 阅读全文
posted @ 2021-12-12 00:13
不是孩子了
阅读(134)
评论(0)
推荐(0)

浙公网安备 33010602011771号