2019 年 5月随笔档案 - 晨曦yd

爬取豆瓣高分电影

摘要：import requests from bs4 import BeautifulSoup import time import re import json import csv urls=[] tc=['名字','评分','导演','演员','时长'] with open('C:\\Users\\lenovo\\Desktop\\go1.csv', 'a+', newline='', en... 阅读全文

posted @ 2019-05-30 14:26 晨曦yd 阅读(394) 评论(0) 推荐(0)

爬取空气质量1

摘要：import urllib.request import requests import csv import re from lxml import etree url='http://www.air-level.com' response=urllib.request.urlopen(url+'/').read().decode() hrefs=re.findall(r'',respon... 阅读全文

posted @ 2019-05-26 16:26 晨曦yd 阅读(220) 评论(0) 推荐(0)

简单爬取小说

摘要：import urllib.request import re #爬取小说是最基础的爬虫，学会思路就能去做一些高级爬虫，思路一样，只是用的库或者JS或者异步等问题不同而已url = "https://www.qb5200.tw/xiaoshuo/36/36143/"#爬取的小说网址 with urllib.request.urlopen(url) as doc: html = doc... 阅读全文

posted @ 2019-05-25 22:37 晨曦yd 阅读(400) 评论(0) 推荐(0)

爬取梨视频

摘要：#下载网页中的视频 import urllib.request import re#正则表达式 import os #找到起始网页 url ='https://www.pearvideo.com/category_8' html = urllib.request.urlopen(url).read( 阅读全文

posted @ 2019-05-25 22:25 晨曦yd 阅读(969) 评论(0) 推荐(0)

爬取豆瓣top250

摘要：#xpath #第一种方法可在开发者工具中找到标签，右键copy xpath，有时需去掉tbody标签 #第二种方法简单学习xpath，自己书写，掌握基本语法即可，简单的层级关系 #先将csv文件以记事本打开，更改编码为ASNI，保存，再用excel打开即可 import urllib.request import urllib.parse import csv from lxm... 阅读全文

posted @ 2019-05-25 22:17 晨曦yd 阅读(230) 评论(0) 推荐(0)

晨曦yd

05 2019 档案

公告