道高一尺

2017年7月1日

摘要： # -*- coding: utf-8 -*- # 分析动态网页请求爬取腾讯视频评论 import scrapy import re import json import time from tencent.items import TencentItem class TenspiderSpider(scrapy.Spider): name = "tenspider" # a... 阅读全文

posted @ 2017-07-01 15:30 道高一尺阅读(738) 评论(0) 推荐(0)

追女神助手v0.1

摘要： 1 #-*-coding:utf8-*- 2 3 import smtplib 4 from email.mime.text import MIMEText 5 import requests 6 from lxml import etree 7 import os 8 import time 9 import sys 10 reload(sys) 11... 阅读全文

posted @ 2017-07-01 10:56 道高一尺阅读(316) 评论(0) 推荐(0)

动态加载网页的爬取总结

摘要： # 动态加载网页的爬取ajax的介绍ajax全称'Asynchronous Javascript And XML'(异步JavaScript和XML)是指一种创建交互式网页应用的网页开发技术通过在后台与服务器进行少量数据交换,ajax可以使网页实现异步更新这意味着可以在不重新加载整个网页的情况下,对阅读全文

posted @ 2017-07-01 10:50 道高一尺阅读(3350) 评论(1) 推荐(0)

2017年6月29日

[转]时间与时间戳之间的转换

摘要：文章来源:http://blog.csdn.net/google19890102/article/details/51355282 对于时间数据，如2016-05-05 20:28:54，有时需要与时间戳进行相互的运算，此时就需要对两种形式进行转换，在Python中，转换时需要用到time模块，具体阅读全文

posted @ 2017-06-29 23:29 道高一尺阅读(1823) 评论(0) 推荐(0)

scrapy爬取小说盗墓笔记

摘要： # -*- coding: utf-8 -*- import scrapy from daomu.items import DaomuItem class DaomuspiderSpider(scrapy.Spider): name = "daomuspider" # allowed_domains = ["www.daomubiji.com"] start_urls ... 阅读全文

posted @ 2017-06-29 10:26 道高一尺阅读(391) 评论(0) 推荐(0)

2017年6月28日

python操作mongodb

摘要： # python操作mongodb # 首先,引入第三方模块pymongo,该模块是python用来操作mongodb的 import pymongo # 第二步,设置ip地址,以及表格名称,表格名字即在mongodb里面的表名称 MONGO_URI = 'localhost' MONG_DB = '表格名称' # 第三步,建立连接 client = pymongo.MongoClient(M... 阅读全文

posted @ 2017-06-28 20:32 道高一尺阅读(264) 评论(0) 推荐(0)

scrapy爬取豆瓣电影top250

摘要： # -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class DoubanspiderSpider(scrapy.Spider): name = "doubanspider" # allowed_domains = ["movie.do... 阅读全文

posted @ 2017-06-28 16:13 道高一尺阅读(1113) 评论(0) 推荐(0)

2017年6月26日

requests+xpath+map爬取百度贴吧

摘要： 1 # requests+xpath+map爬取百度贴吧 2 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 3 # 分解: 4 # requests获取网页 5 # xpath提取内容 6 # map实现多线程爬虫 7 import requests 8 from requests.exceptions import RequestException 9 from lxml i... 阅读全文

posted @ 2017-06-26 17:53 道高一尺阅读(811) 评论(0) 推荐(0)

2017年6月25日

多线程爬虫

摘要： 1 # 多线程爬虫 2 # map函数的使用 3 # from multiprocessing.dummy import Pool 4 # pool=Pool(4) 5 # results = pool.map(爬取函数,网址列表) 6 # 实例演示: 7 from multiprocessing.dummy import Pool as ThreadPool 8 import ... 阅读全文

posted @ 2017-06-25 22:31 道高一尺阅读(255) 评论(0) 推荐(0)

xpath的一般用法与特殊用法

摘要： # xpath的使用安装lxml from lxml import etree Selector = etree.HTML(网页代码) Selector.xpath(一段神奇的代码) xpath的一般用法 //定位根节点 /表示往下层寻找 /text()提取文本内容 /@***提取属性例: response.xpath('//ul[@id="useful"]/li/text()') 中括... 阅读全文

posted @ 2017-06-25 20:22 道高一尺阅读(4551) 评论(0) 推荐(0)

公告