会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
古怪的一阵风
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
下一页
[置顶]
python基础:协程详解
摘要: Python的yield不但可以返回一个值,它还可以接收调用者发出的参数。 来看例子: 传统的生产者-消费者模型是一个线程写消息,一个线程取消息,通过锁机制控制队列和等待,但一不小心就可能死锁。 如果改用协程,生产者生产消息后,直接通过yield跳转到消费者开始执行,待消费者执行完毕后,切换回生产者
阅读全文
posted @ 2017-07-06 18:25 古怪的一阵风
阅读(541)
评论(0)
推荐(0)
[置顶]
python爬虫:multipart/form-data格式的POST实体封装与提交
摘要: 在Python中,我们通常使用urllib2中提供的工具来完成HTTP请求,例如向服务器POST数据。通常情况下,所有的数据都会进行URL编码并将Content-Type设置为application/x-www-form-urlencoded。不过在一些特殊的情况下(例如服务器限制而不允许使用这种类
阅读全文
posted @ 2017-06-25 23:47 古怪的一阵风
阅读(5040)
评论(0)
推荐(0)
[置顶]
python爬虫:Multipart/form-data POST文件上传详解
摘要: 简单的HTTP POST 大家通过HTTP向服务器发送POST请求提交数据,都是通过form表单提交的,代码如下: <form method="post"action="http://w.sohu.com" > <inputtype="text" name="txt1"> <inputtype="t
阅读全文
posted @ 2017-06-25 23:25 古怪的一阵风
阅读(8102)
评论(0)
推荐(0)
[置顶]
python爬虫:http请求头部(header)详解
摘要: 本文根据RFC2616(HTTP/1.1规范),参考 http://www.w3.org/Protocols/rfc2068/rfc2068 http://www.w3.org/Protocols/rfc2616/rfc2616 http://www.ietf.org/rfc/rfc3229.txt
阅读全文
posted @ 2017-06-25 23:21 古怪的一阵风
阅读(60741)
评论(0)
推荐(2)
[置顶]
python爬虫:登录百度账户,并上传文件到百度云盘
摘要: login.js文件: Pyhton实现代码:
阅读全文
posted @ 2017-06-23 00:49 古怪的一阵风
阅读(7205)
评论(0)
推荐(1)
[置顶]
python爬虫:urlparse模块拆分url
摘要: urlparse模块主要是把url拆分为6部分,并返回元组。并且可以把拆分后的部分再组成一个url。主要有函数有urljoin、urlsplit、urlunsplit、urlparse等。 urlparse.urlparse(urlstring[, scheme[, allow_fragments]
阅读全文
posted @ 2017-06-13 09:39 古怪的一阵风
阅读(4171)
评论(0)
推荐(0)
[置顶]
转:python爬虫:html标签(图文详解二)
摘要: 本文主要内容 列表标签 表格标签 框架标签及内嵌框架<iframe> 表单标签及语义化 多媒体标签 滚动字幕标签:<marquee> 清单标签(列表标签) 列表标签分为三种。 1、无序列表<ul>,无序列表中的每一项是<li> 英文单词:un list。 例如: <ul> <li>默认1</li>
阅读全文
posted @ 2017-06-13 09:18 古怪的一阵风
阅读(1374)
评论(0)
推荐(0)
[置顶]
转:python爬虫:html标签(图文详解一)
摘要: 本文主要内容 头标签 排版标签:<p> <br> <hr> <center> <pre> <div> <span> 字体标记:<h1> <font> <b> <u> <sup> <sub> 超链接 图片标签 一、HTML的介绍 1、HTML的概述: html全称为HyperText Mackeup
阅读全文
posted @ 2017-06-13 09:16 古怪的一阵风
阅读(5877)
评论(0)
推荐(0)
[置顶]
python爬虫:使用BeautifulSoup修改网页内容
摘要: BeautifulSoup除了可以查找和定位网页内容,还可以修改网页。修改意味着可以增加或删除标签,改变标签名字,变更标签属性,改变文本内容等等。 使用修BeautifulSoup修改标签 每一个标签在BeautifulSoup里面都被当作一个标签对象,这个对象可以执行以下任务: 修改标签名 修改标
阅读全文
posted @ 2017-06-13 09:12 古怪的一阵风
阅读(14309)
评论(0)
推荐(1)
[置顶]
python爬虫:用BeautifulSoup抓取div标签
摘要: 1 # -*- coding:utf-8 -*- 2 #python 2.7 3 #XiaoDeng 4 #http://tieba.baidu.com/p/2460150866 5 #标签操作 6 7 8 from bs4 import BeautifulSoup 9 import urllib.request 10 import re 11 12 13 #如果是网址...
阅读全文
posted @ 2017-06-12 01:23 古怪的一阵风
阅读(19609)
评论(0)
推荐(0)
[置顶]
python爬虫:两种方法模拟登录博客园
摘要: 第一方法用第三方库(requests):参考http://www.mamicode.com/info-detail-1839685.html 源代码分析 博客园的登录页面非常简单,查看网页源代码,可以发现两个输入框的id分别为input1、input2,复选框的id为remember_me,登录按钮
阅读全文
posted @ 2017-06-11 23:43 古怪的一阵风
阅读(4773)
评论(1)
推荐(1)
[置顶]
python基础:\r的用法详解
摘要: 第一个print输出: ef 第二个输出: A变到Z(没有换行,每次都是一个字母显示,下一个字母替换上一个字母) \r 默认表示将输出的内容返回到第一个指针,这样的话,后面的内容会覆盖前面的内容 PyCharm控制台中显示,\r真正实现了其回车的功能(回到某行开头,把前面的输出覆盖了,其实在PyCh
阅读全文
posted @ 2017-06-11 23:19 古怪的一阵风
阅读(3714)
评论(0)
推荐(0)
[置顶]
python爬虫:抓取新浪新闻内容(从当前时间到之前某个时间段),并用jieba分词,用于训练自己的分词模型
摘要: 新浪新闻内容采用的是ajax动态显示内容,通过抓包,发现如下规律: 每次请求下一页,js那一栏都会出现新的url:
阅读全文
posted @ 2017-06-11 14:24 古怪的一阵风
阅读(2729)
评论(0)
推荐(1)
[置顶]
python爬虫:解决请求路径中含义中文或特殊字符
摘要: 一、解决请求路径中含义中文或特殊字符(/n,/t等): 1 httpurl=urllib.parse.quote(new_url, safe=string.printable) 注意:new_url必须是只有一个单引号或者双引号,如果是下面这个既有单引号,也有双引号,就会出现urlerror: ne
阅读全文
posted @ 2017-06-11 14:12 古怪的一阵风
阅读(2180)
评论(0)
推荐(0)
[置顶]
python基础:re模块匹配时贪婪和非贪婪模式
摘要: python贪婪和非贪婪 正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪则相反,总是尝试匹配尽可能少的字符。在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。 >>> s="Thi
阅读全文
posted @ 2017-06-11 13:46 古怪的一阵风
阅读(32269)
评论(0)
推荐(0)
[置顶]
python基础:json.loads(str)出现错误总结
摘要: 原因在于:字符串里用单引号来标识字符。 解决办法如下:将字符串里的单引号替换成双引号 对于带u'的字符串,u也要去掉: 1 >>> c=f.read() 2 >>> c 3 "{u'meta': {u'code': 200, u'requestId': u'5815f6739fb6b77494061
阅读全文
posted @ 2017-06-11 12:57 古怪的一阵风
阅读(19037)
评论(0)
推荐(0)
[置顶]
python爬虫:BeautifulSoup 使用select方法详解
摘要: 我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list(1)通过标签名查找 (2)通过类名查找 (3)通过 id 名查找 (4)组合查找 组合查找即和写 class 文件时,标签名
阅读全文
posted @ 2017-06-10 17:29 古怪的一阵风
阅读(87667)
评论(5)
推荐(6)
[置顶]
python爬虫:使用BeautifulSoup进行查找
摘要: 网页中有用的信息通常存在于网页中的文本或各种不同标签的属性值,为了获得这些网页信息,有必要有一些查找方法可以获取这些文本值或标签属性。而Beautiful Soup中内置了一些查找方式: find() find_all() find_parent() find_parents() find_next
阅读全文
posted @ 2017-06-09 17:26 古怪的一阵风
阅读(18223)
评论(0)
推荐(0)
[置顶]
python爬虫:使用账号、密码和验证码登录知乎网页
摘要: 先上代码,后分析出现的问题: 1、出现“SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)”: Python 2.7.9 之后版本引入了一个新特性 当你urllib.urlopen一个 h
阅读全文
posted @ 2017-06-09 17:16 古怪的一阵风
阅读(11309)
评论(0)
推荐(0)
[置顶]
python爬虫:Python2.7 Opener和Handler的使用和实例
摘要: 在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl() 1.geturl(): 这个返回获取的真实的URL,这个很有用,因为urlope
阅读全文
posted @ 2017-06-08 18:20 古怪的一阵风
阅读(639)
评论(0)
推荐(0)
2018年3月8日
centos6.8_64部署django项目
摘要: 一、用SecureCRT登录云服务器,并输入命令控制云服务器 二、安装python并升级版本(系统默认的是python2.6) 1、安装python2.7 yum install -y update # 更新内置程序 yum groupinstall -y development # 安装所需的de
阅读全文
posted @ 2018-03-08 17:35 古怪的一阵风
阅读(221)
评论(0)
推荐(0)
1
2
3
4
5
下一页
公告