摘要:
import requests from lxml import etree def city_page(base_url): url = base_url+'post/' headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x 阅读全文
posted @ 2020-03-23 09:13
momingQI
阅读(404)
评论(0)
推荐(0)
摘要:
1 import requests 2 # 导入lxml使用xpath提取数据 3 from lxml import etree 4 def douban_movies(m_type,nums): 5 ''' 6 豆瓣电影排行榜爬取 7 ''' 8 9 url = "https://movie.do 阅读全文
posted @ 2020-03-23 09:10
momingQI
阅读(713)
评论(0)
推荐(0)
摘要:
1 # from urllib import request,parse 2 import requests 3 import time 4 import random 5 import hashlib 6 import json 7 class YouDao(): 8 ''' 9 salt: i 阅读全文
posted @ 2020-03-23 09:08
momingQI
阅读(473)
评论(0)
推荐(0)
摘要:
##爬虫 -通用网络爬虫 其的主要目的是将互联网上的资源下载到本地形成一个镜像备份。类似百度等搜索引擎 -聚焦爬虫 其面向特定需求的爬虫程序,与通用爬虫的区别在于对数据进行筛选尽量爬取相关数据 -爬虫优化 1.尽量减少请求次数 2.web页面不好爬取时爬app和h5页面(手机) ##HTTP和HTT 阅读全文
posted @ 2020-03-23 09:05
momingQI
阅读(552)
评论(0)
推荐(0)

浙公网安备 33010602011771号