随笔分类 - 爬虫
摘要:之前有了实现模拟登陆coursera的经验,我们可以模仿着来模拟登陆V2EX,因为这个网站的登陆不需要验证码,所以先从这个网站下手。 先打开登陆页面,按F12,用错误的用户名和密码登陆一次。 关键的就是form_data中提交发送的数据。连续试了几次发现用户名和密码是自动生成的会变的每次,所以我们需
阅读全文
摘要:1.新建一个项目 scrapy startproject doubanspider 2.编写电影信息item类 3.编写spider类 # -*- coding: utf-8 -*- from scrapy import Request from scrapy.spiders import Spid
阅读全文
摘要:1.新建项目 scrapy startproject book_project 2.编写items类 3.编写spider类 # -*- coding: utf-8 -*- import scrapy from book_project.items import BookItem class Boo
阅读全文
摘要:# -*- coding:utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Tool: #去除img标签,7位长空格 removeImg = re.compile('<img.*?>| {7}|') #删除超链接标签 re
阅读全文
摘要:本篇目标 1.抓取糗事百科热门段子 2.过滤带有图片的段子 3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数。 糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有的段子是附图的,我们把图抓下来图片不便于显示,那么我们就尝试过滤掉有图的段子吧。 好,现在我们尝试抓
阅读全文
摘要:import random code = [] for i in range(6): if i == random.randint(1,5): code.append(str(random.randint(0,9))) else: temp = random.randint(65,90) code.append(chr(temp...
阅读全文
摘要:在Eclipse中安装pydev插件 启动Eclipse, 点击Help->Install New Software... 在弹出的对话框中,点Add 按钮。 Name中填:Pydev, Location中填http://pydev.org/updates 然后一步一步装下去。 如果装的过程中,报错
阅读全文
摘要:1.打开韩寒博客列表页面 http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html 目标是获取所有文章的超级链接 2.韩寒文章列表特征 <a title target... href=....html> 3.技术要点 ·字符串函数find ·
阅读全文
摘要:1.如何刷‘阅读次数’ 用while循环来控制 2.如何关闭浏览器 用taskkill来杀死进程,避免打开过多的网页占用太多cpu
阅读全文
摘要:Python 使用第三方库函数及简单网页爬虫示例 # -*- coding: utf-8 -*- import urllibimport webbrowser as weburl = "http://www.163.com"content = urllib.urlopen(url).read()op
阅读全文

浙公网安备 33010602011771号