python爬虫 - 随笔分类 - Bob__Zhang

淘车素材

摘要：所有城市列表CITY_CODE = ['quanguo', 'shijiazhuang', 'tangshan', 'qinhuangdao', 'handan', 'xingtai', 'baoding', 'zhangjiakou', 'chengde', 'cangzhou', 'langfa 阅读全文

posted @ 2019-02-18 15:58 Bob__Zhang 阅读(276) 评论(0) 推荐(0)

爬取糗事百科列表页案例

摘要：import requests from lxml import etree import re # 爬取糗事百科所有列表页信息 class Qiushi(): def __init__(self, base_url): self.base_url = base_url self.max_page = self.get_max_page() ... 阅读全文

posted @ 2018-12-15 01:24 Bob__Zhang 阅读(314) 评论(0) 推荐(0)

index.html（xpath素材）

摘要：新华书店 Harry Potter 29.99 Learning XML 39.95 python 大全 99.95 阅读全文

posted @ 2018-12-13 16:31 Bob__Zhang 阅读(281) 评论(0) 推荐(0)

hello.html

摘要：<html> <body> <div> <ul class="bold"> <li class="item-0"> <span class="bold">这是一个span标签</span> <a href="link1.html">first item</a> </li> <li class="it 阅读全文

posted @ 2018-12-13 16:21 Bob__Zhang 阅读(597) 评论(0) 推荐(0)

爬取百度贴吧

摘要：# 带入需要使用的包 from urllib import request, parse import os # 基础知识 # 变量赋值 # 字符串赋值爬取的关键字 kw = 'lol' # 数值赋值爬取的页数范围 start = 1 end = 4 # 输出 # print(kw, start, end) # 声明需要爬取的连接 base_url = 'https://tieba.b... 阅读全文

posted @ 2018-12-12 16:23 Bob__Zhang 阅读(332) 评论(0) 推荐(0)

批量爬取百度贴吧

摘要：# 带入需要使用的包from urllib import request, parseimport os# 基础知识# 变量赋值# 字符串赋值爬取的关键字kw = 'lol'# 数值赋值爬取的页数范围start = 1end = 4# 输出# print(kw, start, end)# 声明需要爬取的连接base_url = 'https://tieba.baidu.com/f?'... 阅读全文

posted @ 2018-12-12 15:56 Bob__Zhang 阅读(244) 评论(0) 推荐(0)

爬取猫眼电影排行榜

摘要：# 导入我们需要的模块 import re import requests # 一、获取网页内容 # （1）声明目标url，就是爬取的网站地址 base_url = "http://maoyan.com/board" # （2）模仿浏览器 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537... 阅读全文

posted @ 2018-12-12 15:05 Bob__Zhang 阅读(333) 评论(0) 推荐(0)

爬取网易云音乐(包括歌词和评论)

摘要：字段说明 Singer_tb是歌手表,包括的字段有: Sger_id:用于计数和排序 Sger_name:歌手名称 Sger_num:歌手名称对应的编号,可用于多表联查歌手数量:6位 Album_tb:是专辑表,包括的字段有: Albun_id:用于计数和排序 Album_name:专辑名称 Al 阅读全文

posted @ 2018-04-13 11:04 Bob__Zhang 阅读(2593) 评论(0) 推荐(0)

正则基础零宽断言

摘要：代码要多敲注释要清晰阅读全文

posted @ 2018-03-14 22:24 Bob__Zhang 阅读(163) 评论(0) 推荐(0)

正则基础反义的应用

摘要：代码要多敲注释邀清晰虽然简单敲一敲增长不少可以为以后的工作提供一些方便阅读全文

posted @ 2018-03-14 21:33 Bob__Zhang 阅读(143) 评论(0) 推荐(0)

selenium,webdriver,xpath获取全国各地的邮编

摘要：代码要多敲注释要清晰其中区号没有拿取出来看到的朋友可以作为练习 ,有好的方法可以在下面留言阅读全文

posted @ 2018-03-14 20:41 Bob__Zhang 阅读(148) 评论(0) 推荐(0)

selenium,webdriver 执行js语句对象是百度

摘要：代码要多敲注释要清晰最后的两种方法,没有实现我想要的结果有知道的朋友,给我留言吧阅读全文

posted @ 2018-03-14 20:28 Bob__Zhang 阅读(212) 评论(0) 推荐(0)

selenium,webdriver爬取斗鱼主播信息实操

摘要：from selenium import webdriver import time from bs4 import BeautifulSoup class douyuSelenium(): #初始化,启动斗鱼浏览器 def setUp(self): self.driver = webdriver.PhantomJS() #获取斗鱼房间信息 ... 阅读全文

posted @ 2018-03-14 19:54 Bob__Zhang 阅读(303) 评论(0) 推荐(0)

selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取

摘要：代码要多敲注释要清晰哪怕再简单阅读全文

posted @ 2018-03-13 23:38 Bob__Zhang 阅读(239) 评论(0) 推荐(0)

selenuim,webdriver 基础3

摘要：代码要多敲注释要清晰哪怕很简单对基础1和2 的补充可以结合1和2来学习阅读全文

posted @ 2018-03-13 22:06 Bob__Zhang 阅读(116) 评论(0) 推荐(0)

selenium,webdriver模仿浏览器访问百度基础2

摘要：学python理念 : 代码要多敲一定要多敲哪怕很基础注释要清晰由于基础1有一些注释写的很详细, 在这里有些注释没有写的很详细可以配合基础1一起学习哦阅读全文

posted @ 2018-03-13 21:57 Bob__Zhang 阅读(133) 评论(0) 推荐(0)

md5加密和拉钩网的登录

摘要：#使用requests模块 #1.登录lagou #2.登录人人，保存个人首页 import requests from urllib import parse #hashlib是MD5加密的一个python内置模块 #导入hashlib模块 import hashlib ''' python提供了一个进行hash加密的模块：hashlib 下面主要记录下其中的md5加密方式 >>> impo... 阅读全文

posted @ 2018-03-13 21:27 Bob__Zhang 阅读(573) 评论(0) 推荐(0)

selenium,webdriver模仿浏览器访问百度基础1

摘要：这是一种比较好的反反爬技术阅读全文

posted @ 2018-03-13 21:23 Bob__Zhang 阅读(296) 评论(0) 推荐(0)

用webdriver模仿浏览器爬取豆瓣python书单

摘要：用webdriver模仿浏览器爬取豆瓣python书单其中运用到os 模块作用是生成文件夹存储爬取的信息 etree 用于xpath解析内容详细代码如下可用我的上一篇博客存取到excel当中阅读全文

posted @ 2018-03-13 20:52 Bob__Zhang 阅读(280) 评论(0) 推荐(0)

爬取拉勾网所有python职位并保存到excel表格对象方式

摘要：# 1.把之间案例，使用bs4,正则，xpath，进行数据提取。 # 2.爬取拉钩网上的所有python职位。 from urllib import request,parse import json,random #导入xlsxwriter 主要用于生成excel表格对象 import xlsxwriter #创建python的职位类 class python_position: ... 阅读全文

posted @ 2018-03-11 22:00 Bob__Zhang 阅读(433) 评论(0) 推荐(0)

白桦林

随笔分类 - python爬虫

公告