摘要: 这个案例主要是在乌托家网站上爬取家具公司的数据,用的方法是requests模块和xpath语法。代码如下: 阅读全文
posted @ 2019-05-31 00:20 Havenkey 阅读(395) 评论(0) 推荐(0)
摘要: 用requests爬取要注意HTTPConnectionPool(host=xxx, port=xxx): Max retries exceeded with url...异常,出现这个异常的解决方法: ①在requests.get()方法前调用 disable_warnings()方法 → req 阅读全文
posted @ 2019-05-30 23:51 Havenkey 阅读(351) 评论(0) 推荐(0)
摘要: 本次小案例是在 http://www.allitebooks.org/ 网站上爬取书本信息,用到requests模块、lxml模块、csv模块,将信息存储到csv文件中。代码中有详细的注释,代码如下: 阅读全文
posted @ 2019-05-30 22:55 Havenkey 阅读(497) 评论(0) 推荐(0)
摘要: 2019.5.25,今天用selenium+chromedriver做了一个12306抢票小爬虫,总共100+行代码,写的真费劲,看来还是没学到家,话不多说,首先看一下README: 1 # Author:K 2 from selenium import webdriver 3 from selen 阅读全文
posted @ 2019-05-26 00:11 Havenkey 阅读(746) 评论(0) 推荐(0)
摘要: 2019.5.23,今天学习了selenium+chromedriver获取动态数据: selenium相当于是一个机器人一样,可以模拟人的行为,例如:点击,填充数据,翻页等。chromedriver是驱动Chrome浏览器的一个驱动程序。必须通过chromedriver才能得到一个driver,爬 阅读全文
posted @ 2019-05-24 01:14 Havenkey 阅读(378) 评论(0) 推荐(0)
摘要: 2019.5.19,今天写这个实例写了几个小时,虽然不多,100行代码左右,但是貌似是学python以来代码写得最多的一次了。 主要是看了这个视频https://www.bilibili.com/video/av51650499?from=search&seid=104786140690266768 阅读全文
posted @ 2019-05-19 23:49 Havenkey 阅读(488) 评论(0) 推荐(0)
摘要: 2019.5.17,不知不觉搞到这个点了。搞得有点晚,总结一下就睡觉: 今天主要学了验证码识别和requests模块高级操作: 1 # Author:K 2 import requests 3 from lxml import etree 4 from CodeClass import YDMHtt 阅读全文
posted @ 2019-05-17 03:18 Havenkey 阅读(207) 评论(0) 推荐(0)
摘要: 2019.5.15,今天继续跟着波波老师学习爬虫开发。主要学了数据解析,总结今天学的知识: 1 # Author:K 2 # 需求:爬取糗事百科中糗图板块下的所有糗图图片 3 4 import requests 5 import re 6 import os 7 import time 8 9 he 阅读全文
posted @ 2019-05-16 01:30 Havenkey 阅读(187) 评论(0) 推荐(0)
摘要: 2019.5.14,总结下今天学的知识: 1 # Author:K 2 ''' 3 装饰器: 4 定义:本质是函数,(装饰其他函数)就是为其他函数添加附加功能 5 原则:(1)不能修改被装饰函数的源代码 (2)不用修改被装饰函数的调用方式 6 7 ''' 8 9 # 现为test()加上计算test 阅读全文
posted @ 2019-05-14 22:13 Havenkey 阅读(198) 评论(0) 推荐(0)
摘要: 2019.5.13,今天在“小猿圈”跟着波波老师学习了爬虫开发的第一章和第二章,总结下今天学的知识: 爬虫基础介绍: 1 # Author:K 2 # 需求:爬取搜狗首页的页面数据 3 4 import requests 5 6 # step 1:指定url 7 url = 'https://www 阅读全文
posted @ 2019-05-13 23:45 Havenkey 阅读(252) 评论(0) 推荐(0)