爬虫 - 随笔分类 - vxee

python 实现v2ex的自动登录并签到

摘要：之前有了实现模拟登陆coursera的经验，我们可以模仿着来模拟登陆V2EX,因为这个网站的登陆不需要验证码，所以先从这个网站下手。先打开登陆页面，按F12，用错误的用户名和密码登陆一次。关键的就是form_data中提交发送的数据。连续试了几次发现用户名和密码是自动生成的会变的每次，所以我们需阅读全文

posted @ 2017-05-01 14:38 vxee 阅读(2029) 评论(0) 推荐(0)

使用srapy框架实现豆瓣电影的抓取

摘要：1.新建一个项目 scrapy startproject doubanspider 2.编写电影信息item类 3.编写spider类 # -*- coding: utf-8 -*- from scrapy import Request from scrapy.spiders import Spid 阅读全文

posted @ 2017-04-27 14:11 vxee 阅读(212) 评论(0) 推荐(0)

python 使用scrapy框架爬取一个图书网站的信息

摘要：1.新建项目 scrapy startproject book_project 2.编写items类 3.编写spider类 # -*- coding: utf-8 -*- import scrapy from book_project.items import BookItem class Boo 阅读全文

posted @ 2017-04-27 12:07 vxee 阅读(1123) 评论(0) 推荐(0)

python 爬取百度贴吧

摘要：# -*- coding:utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Tool: #去除img标签,7位长空格 removeImg = re.compile('<img.*?>| {7}|') #删除超链接标签 re 阅读全文

posted @ 2016-08-12 15:26 vxee 阅读(202) 评论(0) 推荐(0)

python 反射

摘要：阅读全文

posted @ 2016-08-04 22:10 vxee 阅读(119) 评论(0) 推荐(0)

python 爬取糗事百科的段子

摘要：本篇目标 1.抓取糗事百科热门段子 2.过滤带有图片的段子 3.实现每按一次回车显示一个段子的发布时间，发布人，段子内容，点赞数。糗事百科是不需要登录的，所以也没必要用到Cookie，另外糗事百科有的段子是附图的，我们把图抓下来图片不便于显示，那么我们就尝试过滤掉有图的段子吧。好，现在我们尝试抓阅读全文

posted @ 2016-08-02 22:00 vxee 阅读(306) 评论(0) 推荐(0)

python 学习之用random生成验证码

摘要：import random code = [] for i in range(6): if i == random.randint(1,5): code.append(str(random.randint(0,9))) else: temp = random.randint(65,90) code.append(chr(temp... 阅读全文

posted @ 2016-08-02 09:11 vxee 阅读(174) 评论(0) 推荐(0)

python + Eclipse + Pydev 安装

摘要：在Eclipse中安装pydev插件启动Eclipse, 点击Help->Install New Software... 在弹出的对话框中，点Add 按钮。 Name中填:Pydev, Location中填http://pydev.org/updates 然后一步一步装下去。如果装的过程中，报错阅读全文

posted @ 2016-07-24 12:59 vxee 阅读(166) 评论(0) 推荐(0)

爬虫学习之下载韩寒博客

摘要：1.打开韩寒博客列表页面 http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html 目标是获取所有文章的超级链接 2.韩寒文章列表特征 <a title target... href=....html> 3.技术要点 ·字符串函数find · 阅读全文

posted @ 2016-07-21 21:14 vxee 阅读(275) 评论(0) 推荐(0)

爬虫学习02-------网络刷博器

摘要：1.如何刷‘阅读次数’ 用while循环来控制 2.如何关闭浏览器用taskkill来杀死进程，避免打开过多的网页占用太多cpu 阅读全文

posted @ 2016-07-21 11:08 vxee 阅读(136) 评论(0) 推荐(0)

小爬虫的学习01

摘要：Python 使用第三方库函数及简单网页爬虫示例 # -*- coding: utf-8 -*- import urllibimport webbrowser as weburl = "http://www.163.com"content = urllib.urlopen(url).read()op 阅读全文

posted @ 2016-07-21 09:31 vxee 阅读(144) 评论(0) 推荐(0)

vxee

随笔分类 - 爬虫

公告