随笔分类 - python爬虫
这个版块主要介绍常用的python爬虫方法
摘要:所有城市列表CITY_CODE = ['quanguo', 'shijiazhuang', 'tangshan', 'qinhuangdao', 'handan', 'xingtai', 'baoding', 'zhangjiakou', 'chengde', 'cangzhou', 'langfa
阅读全文
摘要:import requests from lxml import etree import re # 爬取糗事百科所有列表页信息 class Qiushi(): def __init__(self, base_url): self.base_url = base_url self.max_page = self.get_max_page() ...
阅读全文
摘要:新华书店 Harry Potter 29.99 Learning XML 39.95 python 大全 99.95
阅读全文
摘要:<html> <body> <div> <ul class="bold"> <li class="item-0"> <span class="bold">这是一个span标签</span> <a href="link1.html">first item</a> </li> <li class="it
阅读全文
摘要:# 带入需要使用的包 from urllib import request, parse import os # 基础知识 # 变量赋值 # 字符串赋值 爬取的关键字 kw = 'lol' # 数值赋值 爬取的页数范围 start = 1 end = 4 # 输出 # print(kw, start, end) # 声明需要爬取的连接 base_url = 'https://tieba.b...
阅读全文
摘要:# 带入需要使用的包from urllib import request, parseimport os# 基础知识# 变量赋值# 字符串赋值 爬取的关键字kw = 'lol'# 数值赋值 爬取的页数范围start = 1end = 4# 输出# print(kw, start, end)# 声明需要爬取的连接base_url = 'https://tieba.baidu.com/f?'...
阅读全文
摘要:# 导入我们需要的模块 import re import requests # 一、获取网页内容 # (1)声明目标url,就是爬取的网站地址 base_url = "http://maoyan.com/board" # (2)模仿浏览器 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537...
阅读全文
摘要:字段说明 Singer_tb是歌手表,包括的字段有: Sger_id:用于计数和排序 Sger_name:歌手名称 Sger_num:歌手名称对应的编号,可用于多表联查 歌手数量:6位 Album_tb:是专辑表,包括的字段有: Albun_id:用于计数和排序 Album_name:专辑名称 Al
阅读全文
摘要:代码要多敲 注释邀清晰 虽然简单 敲一敲 增长不少 可以为以后的工作提供一些方便
阅读全文
摘要:代码要多敲 注释要清晰 其中区号没有拿取出来 看到的朋友可以作为练习 ,有好的方法可以在下面留言
阅读全文
摘要:代码要多敲 注释要清晰 最后的两种方法,没有实现我想要的结果 有知道的朋友,给我留言吧
阅读全文
摘要:from selenium import webdriver import time from bs4 import BeautifulSoup class douyuSelenium(): #初始化,启动斗鱼浏览器 def setUp(self): self.driver = webdriver.PhantomJS() #获取斗鱼房间信息 ...
阅读全文
摘要:代码要多敲 注释要清晰 哪怕再简单
阅读全文
摘要:代码要多敲 注释要清晰 哪怕很简单 对基础1和2 的补充 可以结合1和2来学习
阅读全文
摘要:学python理念 : 代码要多敲 一定要多敲 哪怕很基础 注释要清晰 由于基础1有一些注释写的很详细, 在这里有些注释没有写的很详细 可以配合基础1一起学习哦
阅读全文
摘要:#使用requests模块 #1.登录lagou #2.登录人人,保存个人首页 import requests from urllib import parse #hashlib是MD5加密的一个python内置模块 #导入hashlib模块 import hashlib ''' python提供了一个进行hash加密的模块:hashlib 下面主要记录下其中的md5加密方式 >>> impo...
阅读全文
摘要:这是一种比较好的反反爬技术
阅读全文
摘要:用webdriver模仿浏览器 爬取豆瓣python书单 其中运用到os 模块 作用是生成文件夹 存储爬取的信息 etree 用于xpath解析内容 详细代码如下 可用我的上一篇博客存取到excel当中
阅读全文
摘要:# 1.把之间案例,使用bs4,正则,xpath,进行数据提取。 # 2.爬取拉钩网上的所有python职位。 from urllib import request,parse import json,random #导入xlsxwriter 主要用于生成excel表格对象 import xlsxwriter #创建python的职位类 class python_position: ...
阅读全文

浙公网安备 33010602011771号