爬虫 - 随笔分类 - 离去墨染

爬取股票scrapy

摘要：步骤1.建立工程和Spider 步骤2.编写爬虫Spider 配置stocks.py文件修改返回页面的处理修改对新增url爬取请求的处理步骤3.编写Piplines.py文件定义对爬取项（Scraped Item）的处理类配置ITEM_PIPLINES选项修改setting.py 阅读全文

posted @ 2019-03-14 12:19 离去墨染阅读(200) 评论(0) 推荐(0)

爬取股票信息

摘要：#!/user/bin/env python # -*- conding:utf-8 -*- import re import requests from bs4 import BeautifulSoup import traceback def get_html_text(url): try: r = requests.get(url,timeout = 30) ... 阅读全文

posted @ 2019-03-14 10:36 离去墨染阅读(216) 评论(0) 推荐(0)

巴比特网站爬取

摘要：#!/user/bin/env python # -*- conding:utf-8 -*- import requests from lxml import etree import json class BtcSpider(object): def __init__(self): self.base_url = 'https://8btc.com/forum-61-'... 阅读全文

posted @ 2019-03-13 22:36 离去墨染阅读(389) 评论(0) 推荐(0)

漫话爬取

摘要：#!/usr/bin/env python # _*_ coding: utf-8 _*_ # __author__ ='kong' from selenium import webdriver import os import time class GetCartoon(object): def __init__(self): self.startUrl = "... 阅读全文

posted @ 2019-03-13 22:33 离去墨染阅读(152) 评论(0) 推荐(0)

爬取报刊名称及地址

摘要：目标：爬取全国报刊名称及地址链接：http://news.xinhuanet.com/zgjx/2007-09/13/content_6714741.htm 目的：练习scrapy爬取数据学习过scrapy的基本使用方法后，我们开始写一个最简单的爬虫吧。目标截图： 1、创建爬虫工程 1 2 $ 阅读全文

posted @ 2019-03-13 22:30 离去墨染阅读(331) 评论(0) 推荐(0)

登陆人人网爬取个人信息

摘要：创建scrapy工程 1 2 cd C:\Spider_dev\app\scrapyprojects scrapy startproject renren 1 2 cd C:\Spider_dev\app\scrapyprojects scrapy startproject renren 1 2 c 阅读全文

posted @ 2019-03-13 22:28 离去墨染阅读(651) 评论(0) 推荐(0)

美剧天堂前100最新

摘要：1、创建工程 1 scrapy startproject movie 1 scrapy startproject movie 1 scrapy startproject movie scrapy startproject movie 2、创建爬虫程序 1 2 cd movie scrapy gens 阅读全文

posted @ 2019-03-13 22:27 离去墨染阅读(807) 评论(0) 推荐(0)

自动登录github

摘要：''' 一目标站点分析浏览器输入https://github.com/login 然后输入错误的账号密码，抓包发现登录行为是post提交到：https://github.com/session 而且请求头包含cookie 而且请求体包含： commit:Sign in utf8:✓ authenticity_token:lbI8IJCwGslZS8qJPnof5e7ZkCoSoMn6jmD... 阅读全文

posted @ 2019-03-12 21:03 离去墨染阅读(607) 评论(0) 推荐(0)

分布式爬虫

摘要：介绍原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，然后重写Scrapy的Scheduler，让新的Scheduler 阅读全文

posted @ 2019-03-12 20:59 离去墨染阅读(222) 评论(0) 推荐(0)

爬虫框架：scrapy

摘要：介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Ass 阅读全文

posted @ 2019-03-12 20:56 离去墨染阅读(396) 评论(0) 推荐(0)

requests模块

摘要：介绍基于GET请求带参数的GET请求->params 带参数的GET请求->headers 带参数的GET请求->cookies 基于POST请求发送post请求，模拟浏览器的登录行为补充响应Response response属性编码问题获取二进制数据解析json Redirecti 阅读全文

posted @ 2019-03-12 20:41 离去墨染阅读(159) 评论(0) 推荐(0)

爬取京东商城商品信息

摘要：from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys ... 阅读全文

posted @ 2019-03-12 20:21 离去墨染阅读(302) 评论(0) 推荐(0)

selenium模块

摘要：介绍安装基本使用选择器基本用法 xpath 获取标签属性等待元素被加载元素交互操作其他阅读全文

posted @ 2019-03-12 20:20 离去墨染阅读(181) 评论(0) 推荐(0)

自动登录163邮箱并发送邮件

摘要：#注意：网站都策略都是在不断变化的，精髓在于学习流程。下述代码生效与2017-11-7，不能保证永久有效 from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.com... 阅读全文

posted @ 2019-03-12 20:20 离去墨染阅读(339) 评论(0) 推荐(0)

pyquery模块

摘要：#_*_coding:utf-8_*_ __author__ = 'Linhaifeng' ''' 强大而又灵活的网页解析库,如果你觉得正则写起来太麻烦,如果你觉得beutifulsoup 语法太难记,如果你熟悉jquery的语法,那么pyquery是最佳选择安装pyquery pip3 install pyquery ''' html=''' 哈哈哈 ... 阅读全文

posted @ 2019-03-12 20:12 离去墨染阅读(164) 评论(0) 推荐(0)

BeautifulSoup模块

摘要：Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 你可能在寻找 Beautiful Soup3 的文档,Beautiful So 阅读全文

posted @ 2019-03-12 20:11 离去墨染阅读(196) 评论(0) 推荐(0)

爬取校花网视频

摘要：import requests import re import time import hashlib def get_page(url): print('GET %s' %url) try: response=requests.get(url) if response.status_code == 200: retur... 阅读全文

posted @ 2019-03-12 20:05 离去墨染阅读(270) 评论(0) 推荐(0)

爬虫基本原理

摘要：爬虫是什么爬虫的基本流程请求与响应 Request Response 总结阅读全文

posted @ 2019-03-12 20:04 离去墨染阅读(134) 评论(0) 推荐(0)

墨染

随笔分类 - 爬虫

公告