上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页
摘要: 有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址。 本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程。 一:爬虫的目标: 打开汽车之家的链接:https://www.autohome.com.cn/beijing/,出现如下页面 我们的目标是 点击找车, 阅读全文
posted @ 2018-05-29 16:57 淋哥 阅读(7787) 评论(2) 推荐(1) 编辑
摘要: #-*-coding:utf-8-*- from common.contest import * import urllib def spider(): song_types = ['新歌','热歌','中国好声音','经典老歌','电视剧','广场舞','欧美','轻音乐','DJ 舞曲','80后','网络歌曲','劲爆','儿歌','纯音乐','粤语' 阅读全文
posted @ 2018-05-13 23:49 淋哥 阅读(2578) 评论(0) 推荐(1) 编辑
摘要: 比如有这样的字符串 直接上代码 阅读全文
posted @ 2018-04-25 16:27 淋哥 阅读(542) 评论(0) 推荐(0) 编辑
摘要: # coding:utf-8 import random, re import json, time import uuid from bs4 import BeautifulSoup import threading import requests import MySQLdb from lxml import etree from selenium import webdriver from... 阅读全文
posted @ 2018-04-25 13:32 淋哥 阅读(638) 评论(0) 推荐(0) 编辑
摘要: 在爬虫的过程过,我们有时候往往是开多线程或者多进程或者是协程,有时间下载速度能达到2兆左右的数据,如果和这些数据插入到数据库中,使我们必须解决的问题: 目前去搞个数据库集群或者其他的对硬件的方案,可能是大公司无所谓,小公司未必能通过老板那一关。我想说的是通过代码去解决数据插入的问题,主要简单的介绍两 阅读全文
posted @ 2018-03-29 09:47 淋哥 阅读(395) 评论(0) 推荐(0) 编辑
摘要: Python requests 下载 m3u8 格式 视频 最近爬取一个视频网站,遇到 m3u8 格式的视频需要下载。 抓包分析,视频文件是多个 ts 文件,什么是 ts文件,请去百度吧: 附图:抓包分析过程 直接把 ts文件请求下来,然后合并 ts文件,如果想把 ts文件转换 MP4 格式,请自行 阅读全文
posted @ 2018-03-29 09:47 淋哥 阅读(1747) 评论(0) 推荐(0) 编辑
摘要: 两个数据库表中合并数据 如果有 t1 和 t2 两个数据库表格,它们两个对应的字段是相同的。如何将 t2 的数据插入到t1中去呢? INSERT INTO domestic_auction_artron_2018_detail_info_1_4_all SELECT *FROM domestic_a 阅读全文
posted @ 2018-03-29 09:03 淋哥 阅读(16444) 评论(2) 推荐(1) 编辑
摘要: 来源于:http://www.sohu.com/a/168371748_714863 很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。 分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳 阅读全文
posted @ 2018-03-29 09:02 淋哥 阅读(1267) 评论(0) 推荐(0) 编辑
摘要: 转载:https://kb.cnblogs.com/page/92320/ HTTP(HyperTextTransferProtocol)即超文本传输协议,目前网页传输的的通用协议。HTTP协议采用了请求/响应模型,浏览器或其他客户端发出请求,服务器给与响应。就整个网络资源传输而言,包括messag 阅读全文
posted @ 2018-03-29 09:02 淋哥 阅读(696) 评论(0) 推荐(0) 编辑
摘要: 现在有3000条数据,需要插入到数据库中去,使用的是对链接进行MD5加密, 阅读全文
posted @ 2018-03-21 13:53 淋哥 阅读(959) 评论(0) 推荐(0) 编辑
摘要: 在做爬虫的时候,我们总是不想去看到网页的注释,或者是网页的一些其他元素,有没有好的办法去掉他们呢? 例如:下面的问题 针对这三种情况,可以试用正则 sub去提取信息 运行结果是: 阅读全文
posted @ 2018-03-20 15:20 淋哥 阅读(1451) 评论(0) 推荐(0) 编辑
摘要: 在下载图片的过程中,经常会发现图片损坏,下面提供了两种解决方法: 方法一: 方法二: 这两张方法都下载了一千多张图片作为测试,没有发现下载的图片加载到一半,或者其他错误。 记录下来,仅供以后参考使用。 阅读全文
posted @ 2018-03-19 10:05 淋哥 阅读(1381) 评论(0) 推荐(1) 编辑
摘要: 爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是 亞洲私人珍&#34255 ;賣,令仝好分享他&#288 阅读全文
posted @ 2018-03-15 14:06 淋哥 阅读(3463) 评论(0) 推荐(0) 编辑
摘要: 在写爬虫的时候,难免会遇到报错,比如 4XX ,5XX,有些可能是网络的原因,或者一些其他的原因,这个时候我们希望程序去做第二次下载, 有一种很low的解决方案,比如是用 try except 有没有看起来更舒服的写法呢? 我们可以用递归实现这个过程 代码如下 输出结果: 阅读全文
posted @ 2018-03-14 10:50 淋哥 阅读(993) 评论(0) 推荐(0) 编辑
摘要: IP协议、HTTP协议、TCP协议、TCP/IP 协议我们经常遇到,而且初学的时候容易弄混。那么他们之间有什么关系呢?重点内容 1、什么是TCP/IP 协议 TCP/IP不是一个协议,而是一个协议族的统称。里面包括IP协议、HTTP协议、TCP协议等。而三次握手四次挥手就发生在TCP协议中。 TCP 阅读全文
posted @ 2018-03-06 12:54 淋哥 阅读(223) 评论(0) 推荐(0) 编辑
摘要: # coding:utf-8 from common.contest import * def spider(): url = "http://www.salamoyua.com/es/subasta.aspx?origen=subastas&subasta=79" chromedriver = 'C:/Users/xuchunlin/AppData/Local/Google/C... 阅读全文
posted @ 2018-02-11 14:43 淋哥 阅读(2303) 评论(0) 推荐(0) 编辑
摘要: 解决程序运行了500s就完成了任务 阅读全文
posted @ 2018-02-08 17:12 淋哥 阅读(575) 评论(0) 推荐(0) 编辑
摘要: # coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文
posted @ 2018-01-21 23:05 淋哥 阅读(2807) 评论(0) 推荐(0) 编辑
摘要: 代码很少,自己去体会 代码不能运行,仅供参考。 阅读全文
posted @ 2018-01-19 09:33 淋哥 阅读(644) 评论(1) 推荐(0) 编辑
摘要: # coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文
posted @ 2018-01-18 22:22 淋哥 阅读(3143) 评论(0) 推荐(1) 编辑
摘要: 使用说明: 阅读全文
posted @ 2018-01-18 13:35 淋哥 阅读(2112) 评论(0) 推荐(0) 编辑
摘要: 使用说明: 阅读全文
posted @ 2018-01-18 13:29 淋哥 阅读(10436) 评论(0) 推荐(0) 编辑
摘要: 对MySQL选择的封装 阅读全文
posted @ 2018-01-18 13:25 淋哥 阅读(1717) 评论(0) 推荐(0) 编辑
摘要: 今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图 源代码: 阅读全文
posted @ 2018-01-08 13:31 淋哥 阅读(11431) 评论(0) 推荐(0) 编辑
摘要: 我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码: 阅读全文
posted @ 2018-01-06 19:28 淋哥 阅读(1394) 评论(0) 推荐(0) 编辑
摘要: 一。 为什么要用解析框架 bs4 我觉得爬虫最难得问题就是编码格式,因为你不知道要爬取目标网站的编码格式,有可能是Unicode,utf-8, ASCII , gbk格式,但是使用Beautiful Soup解析后,文档都被转换成了Unicode,通过Beautiful Soup输出文档时,不管输入 阅读全文
posted @ 2018-01-04 17:53 淋哥 阅读(2489) 评论(0) 推荐(0) 编辑
摘要: # encoding=utf-8 agents = [ "Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1", "Avant Browser/1.2.789... 阅读全文
posted @ 2018-01-03 10:55 淋哥 阅读(1022) 评论(0) 推荐(0) 编辑
摘要: 今天就聊聊爬虫的清洗,下载网页只是最简单的一个步骤,最让人头疼的是数据的清洗。 为什么要这样说呢,因为爬虫首先是获得数据,清洗是把非结构化的数据转换成结果化的数据,这个时候是最考验人的时候。 如果是国内的网站,清洗工作相对比较简单,因为国内的数据不是那么的凌乱,有一定的规则,我们清洗的时候需要写的规 阅读全文
posted @ 2017-12-28 14:42 淋哥 阅读(1915) 评论(0) 推荐(0) 编辑
摘要: 7 阅读全文
posted @ 2017-12-28 14:42 淋哥 阅读(6356) 评论(0) 推荐(2) 编辑
摘要: tornado中的coroutine是python中真正意义上的协程,与python3中的asyncio几乎是完全一样的,而且两者之间的future是可以相互转换的,tornado中有与asyncio相兼容的接口。 下面是利用tornado中的coroutine进行并发抓取的代码: 利用corout 阅读全文
posted @ 2017-12-28 14:42 淋哥 阅读(1038) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页