05 2019 档案
摘要:import requests from bs4 import BeautifulSoup import time import re import json import csv urls=[] tc=['名字','评分','导演','演员','时长'] with open('C:\\Users\\lenovo\\Desktop\\go1.csv', 'a+', newline='', en...
阅读全文
摘要:import urllib.request import requests import csv import re from lxml import etree url='http://www.air-level.com' response=urllib.request.urlopen(url+'/').read().decode() hrefs=re.findall(r'',respon...
阅读全文
摘要:import urllib.request import re #爬取小说是最基础的爬虫,学会思路就能去做一些高级爬虫,思路一样,只是用的库或者JS或者异步等问题不同而已url = "https://www.qb5200.tw/xiaoshuo/36/36143/"#爬取的小说网址 with urllib.request.urlopen(url) as doc: html = doc...
阅读全文
摘要:#下载网页中的视频 import urllib.request import re#正则表达式 import os #找到起始网页 url ='https://www.pearvideo.com/category_8' html = urllib.request.urlopen(url).read(
阅读全文
摘要:#xpath #第一种方法 可在开发者工具中找到标签,右键copy xpath,有时需去掉tbody标签 #第二种方法 简单学习xpath,自己书写,掌握基本语法即可,简单的层级关系 #先将csv文件以记事本打开,更改编码为ASNI,保存,再用excel打开即可 import urllib.request import urllib.parse import csv from lxm...
阅读全文

浙公网安备 33010602011771号