随笔分类 - Python
摘要:1、关于编码问题, 被编码为了?号,解决办法是:content.prettify(formatter="html"),这样 存到数据库里面的就是html代码。
阅读全文
摘要:一、前3000名人员列表页 1)进入首页,找到博客园积分列表。如下图:然后我们就找到前3000名大神的博客地址了。通过,词云分析了下,好多大神的博客都迁移到个人博客上了。 2)分析页面结构:每一个td都是,一个人员。 第一个small为排名 第二个a标签是昵称和用户名,以及首页的博客地址。用户名通过
阅读全文
摘要:一、先上效果 二、安装Scrapy和使用 官方网址:https://scrapy.org/。 安装命令:pip install Scrapy 安装完成,使用默认模板新建一个项目,命令:scrapy startproject xx 上图很形象的说明了,scrapy的运行机制。具体各部分的含义和作用,可
阅读全文
摘要:1、地址:http://lib.henau.edu.cn/Default/go?sortID=109 反爬虫的机制,通过cookie值。第1次请求该地址,会检查cookie,如果没有相应的cookie会先通过js设置cookie值。再重新请求该页面。 这是第1次请求该页面返回的文档,我们可以看到js
阅读全文
摘要:验证码 2种方式: 1) 我们在浏览器输入正确的账号和密码、验证码后。登录成功,记住我的登录信息是这个。我们接下来,写代码访问的时候在cookie中提交这个就可以了。过期时间是1个月。这个cookie中包含的信息是加密的,我们可以看到有个时间戳,保存的是登陆成功的时间。导致的问题,知乎后端肯定是会检
阅读全文
摘要:1、关于setdefaultencoding之前必须reload(sys): 要在调用setdefaultencoding时必须要先reload一次sys模块,因为这里的import语句其实并不是sys的第一次导入语句,也就是说这里其实可能是第二、三次进行sys模块的import,这里只是一个对sy
阅读全文
摘要:# coding=utf-8 import sys import smtplib import os from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipart from ConfigHelper import ConfigHelper reload(sys) sys.setdefaul...
阅读全文
摘要:1、不同包之间调用,因为在不同文件夹下,引用的时候加上包名就可以了。运行时,在eclipse直接运行没有问题。但是在,命令行运行时出现找不到模块的错误。原因是,Python只搜索当前目录和内置模块以及安装的第三方模块。因此,会找不到模块。 解决办法是,在要运行的文件中加上sys.path.appen
阅读全文
摘要:1、首先要安装pywin32-220.win-amd64-py2.7.exe 2、 break 注意点: 1)if __name__ == '__main__'必须要加,否则会报错。 2)while True也要加,如果只想运行一次可以不加。会有提示,说只运行了1次。
阅读全文
摘要:1、#coding=utf-8的作用 作用是这个文件代码的编码格式,如果没有声明代码中不能出现中文字符,包括注释中也不能出现。否则会报错SyntaxError: Non-ASCII character。 2、sys.setdefaultencoding('utf-8')的作用 可以使用sys.get
阅读全文

浙公网安备 33010602011771号