上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 47 下一页
摘要: # -*- coding: utf-8 -*- # 分析动态网页请求爬取腾讯视频评论 import scrapy import re import json import time from tencent.items import TencentItem class TenspiderSpider(scrapy.Spider): name = "tenspider" # a... 阅读全文
posted @ 2017-07-01 15:30 道高一尺 阅读(737) 评论(0) 推荐(0)
摘要: 1 #-*-coding:utf8-*- 2 3 import smtplib 4 from email.mime.text import MIMEText 5 import requests 6 from lxml import etree 7 import os 8 import time 9 import sys 10 reload(sys) 11... 阅读全文
posted @ 2017-07-01 10:56 道高一尺 阅读(314) 评论(0) 推荐(0)
摘要: # 动态加载网页的爬取ajax的介绍ajax全称'Asynchronous Javascript And XML'(异步JavaScript和XML)是指一种创建交互式网页应用的网页开发技术通过在后台与服务器进行少量数据交换,ajax可以使网页实现异步更新这意味着可以在不重新加载整个网页的情况下,对 阅读全文
posted @ 2017-07-01 10:50 道高一尺 阅读(3349) 评论(1) 推荐(0)
摘要: 文章来源:http://blog.csdn.net/google19890102/article/details/51355282 对于时间数据,如2016-05-05 20:28:54,有时需要与时间戳进行相互的运算,此时就需要对两种形式进行转换,在Python中,转换时需要用到time模块,具体 阅读全文
posted @ 2017-06-29 23:29 道高一尺 阅读(1820) 评论(0) 推荐(0)
摘要: # -*- coding: utf-8 -*- import scrapy from daomu.items import DaomuItem class DaomuspiderSpider(scrapy.Spider): name = "daomuspider" # allowed_domains = ["www.daomubiji.com"] start_urls ... 阅读全文
posted @ 2017-06-29 10:26 道高一尺 阅读(388) 评论(0) 推荐(0)
摘要: # python操作mongodb # 首先,引入第三方模块pymongo,该模块是python用来操作mongodb的 import pymongo # 第二步,设置ip地址,以及表格名称,表格名字即在mongodb里面的表名称 MONGO_URI = 'localhost' MONG_DB = '表格名称' # 第三步,建立连接 client = pymongo.MongoClient(M... 阅读全文
posted @ 2017-06-28 20:32 道高一尺 阅读(261) 评论(0) 推荐(0)
摘要: # -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class DoubanspiderSpider(scrapy.Spider): name = "doubanspider" # allowed_domains = ["movie.do... 阅读全文
posted @ 2017-06-28 16:13 道高一尺 阅读(1111) 评论(0) 推荐(0)
摘要: 1 # requests+xpath+map爬取百度贴吧 2 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 3 # 分解: 4 # requests获取网页 5 # xpath提取内容 6 # map实现多线程爬虫 7 import requests 8 from requests.exceptions import RequestException 9 from lxml i... 阅读全文
posted @ 2017-06-26 17:53 道高一尺 阅读(809) 评论(0) 推荐(0)
摘要: 1 # 多线程爬虫 2 # map函数的使用 3 # from multiprocessing.dummy import Pool 4 # pool=Pool(4) 5 # results = pool.map(爬取函数,网址列表) 6 # 实例演示: 7 from multiprocessing.dummy import Pool as ThreadPool 8 import ... 阅读全文
posted @ 2017-06-25 22:31 道高一尺 阅读(253) 评论(0) 推荐(0)
摘要: # xpath的使用 安装lxml from lxml import etree Selector = etree.HTML(网页代码) Selector.xpath(一段神奇的代码) xpath的一般用法 //定位根节点 /表示往下层寻找 /text()提取文本内容 /@***提取属性 例: response.xpath('//ul[@id="useful"]/li/text()') 中括... 阅读全文
posted @ 2017-06-25 20:22 道高一尺 阅读(4549) 评论(0) 推荐(0)
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 47 下一页