摘要: ''' 爬取豌豆荚app数据 - 请求url page2: https://www.wandoujia.com/wdjweb/api/category/more?catId=6001&subCatId=0&page=2&ctoken=vbw9lj1sRQsRddx0hD-XqCNF ''' import requests from bs4 import BeautifulSoup import ... 阅读全文
posted @ 2019-07-04 09:29 MerliahSwift 阅读(182) 评论(0) 推荐(0)
摘要: from selenium import webdriver import time driver = webdriver.Chrome() try: driver.implicitly_wait(20) driver.get('https://www.wandoujia.com/category/6001') time.sleep(5) js_code = '... 阅读全文
posted @ 2019-07-03 20:14 MerliahSwift 阅读(354) 评论(0) 推荐(0)
摘要: 二.BeautifulSoup4 (BS4) 1.什么是BeautifulSoup4 BS4是一个解析库,可以通过某种解析器来帮我们提取我们想要的数据 2.为什么要使用BS4 因为它可以通过简洁的语法快速提取用户想要的数据内容 3.解析器的分类 lxml HTML解析器(首选) P... 阅读全文
posted @ 2019-07-03 20:09 MerliahSwift 阅读(163) 评论(0) 推荐(0)
摘要: 其他操作 爬取京东商品信息 阅读全文
posted @ 2019-07-03 11:26 MerliahSwift 阅读(112) 评论(0) 推荐(0)
摘要: selenium选择器 阅读全文
posted @ 2019-07-02 12:37 MerliahSwift 阅读(139) 评论(0) 推荐(0)
摘要: ''' POST 请求自动登陆github: 请求URL: https://github.com/session 请求方式: POST 请求头: Cookie User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gec... 阅读全文
posted @ 2019-07-01 16:51 MerliahSwift 阅读(184) 评论(0) 推荐(0)
摘要: 2019.7.1一、爬虫基本原理1.什么是爬虫 爬取数据2.什么是互联网 由一堆网络设备,把一台台的计算机互联到一起称之为互联网3.互联网建立的目的 数据的传递与数据的共享4.什么是数据 例如:电商平台的商品信息(淘宝、京东、亚马逊) 链家、自如租房平台的房源信息 股票证券投资信息(东方财富) ...... 12306,票务信息5.什么是上网 普通用户:打开浏览器--->输入网址... 阅读全文
posted @ 2019-07-01 14:57 MerliahSwift 阅读(167) 评论(0) 推荐(0)