随笔分类 -  python

摘要:最近写爬虫,突然发现自己的动态的User-Agent用不了了,所以想可能是新版本出来了,旧的版本用不了了,坏掉了。 一时间想不起用什么命令了,网上查了一下,发现很简单,所以记录一下方便以后忘了的时候快速查找,根据版本不同稍微有点区别 windows : pip install -u 模块名称 也有可 阅读全文
posted @ 2018-12-18 16:26 言守中 阅读(5922) 评论(0) 推荐(0)
摘要:在scrapy的反爬中,常用的几个配置,简单总结了下: User-Agent中间件: 代理IP中间件: cookies设置、多个爬虫共用一个settings时,各自spider中的设置: 都是很简单实用的配置 验证码:打码平台比较简单、省事、效率 注:每天进步一点点,或记录或不记录,都是自己的。记录 阅读全文
posted @ 2018-12-18 15:58 言守中 阅读(1509) 评论(0) 推荐(0)
摘要:re 模块的使用: 1.使用compile()函数编译一个parttern对象, 例如:parttern=re.compile(r'\d+') 2.通过pattern对象提供的一系列属相和方法,对文本进行匹配查找,获得结果,即一个Match对象 match 方法:从起始位置开始查找,一次匹配,匹配失 阅读全文
posted @ 2018-12-04 17:25 言守中 阅读(5574) 评论(0) 推荐(1)
摘要:概念:又称规则表达式,常用来检索、替换符合某个规则的文本。 理解:特殊字符 >规则 >过滤字符串 目的:1.匹配给定的字符串,2.从字符串中过滤出我们需要的特定部分 python 内置 re模块来使用正则表达式 注意点:正则表达式会对特殊字符进行转义,如果要保持原模样,只需加个r前缀。例如:r'\t 阅读全文
posted @ 2018-12-04 15:09 言守中 阅读(646) 评论(0) 推荐(0)
摘要:用python写个爬虫,配置个VScode环境,发现输出都是乱码,翻阅网站后发现一个简单有效的方法,在此谢过网络上的大牛们的无私分享,我也在此记录一下,以备后用: 文件 >首选项 >设置 >用户设置 >功能 >终端 >在settings.json中编辑 加入这句话:"code-runner.runI 阅读全文
posted @ 2018-10-11 18:42 言守中 阅读(18992) 评论(0) 推荐(0)
摘要:这个小程序可以爬取该网站的医生专家的信息,分不同的专科保存到同一个Excel中。 阅读全文
posted @ 2018-09-17 13:54 言守中 阅读(18819) 评论(0) 推荐(0)
摘要:直接命令pip install scrapy安装,提示失败 Failed building wheel for Twisted... Microsoft Visual C++ 14.0 is required...等等 网上搜索一大摞windows下安装scrapy的资料,实践后终于大功告成,现分享 阅读全文
posted @ 2017-11-09 22:52 言守中 阅读(3381) 评论(0) 推荐(0)
摘要:1.下载windows版本,64位,3.0版本就可以 官网下载地址:http://redis.io/download github下载地址:https://github.com/MSOpenTech/redis/tags 2.创建路径C:\Redis\redis-3.0,存放redis文件 3.在R 阅读全文
posted @ 2017-11-09 22:20 言守中 阅读(348) 评论(0) 推荐(0)
摘要:Logging Scrapy提供了log功能,可以通过 logging 模块使用 可以修改配置文件settings.py,任意位置添加下面两行 Scrapy提供5层logging级别: CRITICAL - 严重错误(critical) ERROR - 一般错误(regular errors) WA 阅读全文
posted @ 2017-10-18 11:33 言守中 阅读(16726) 评论(0) 推荐(1)
摘要:# -*- coding:utf-8 -*- from scrapy.cmdline import execute import sys import os '''在爬虫文件夹下面自定义一个main.py的文件 __file__指的是当前main.py文件 os.path.abspath(__file__)获取当前main.py文件所在路径 os.path.dirname(os.path.ab... 阅读全文
posted @ 2017-10-18 10:54 言守中 阅读(1533) 评论(0) 推荐(0)
摘要:安装虚拟环境的时候遇到的问题,解决的过程很闹心,在这里简单直接的分享出来,就是为了解决问题。 安装虚拟环境(须在联网状态下) 安装完虚拟环境后,如果提示找不到mkvirtualenv命令,须配置环境变量: 创建虚拟环境(ubuntu里须在联网状态下,自己定义环境名字) 进入相应的虚拟环境,使用pip 阅读全文
posted @ 2017-09-10 17:55 言守中 阅读(821) 评论(0) 推荐(0)
摘要:mongoDB安装完成后,运行sudo service mongod start 查看程序状态:ps ajx | grep mongod ,启动失败 查看失败信息提示,终端命令:tail -f /var/log/mongodb/mongod.log 错误提示:Failed to unlink soc 阅读全文
posted @ 2017-09-10 17:25 言守中 阅读(2417) 评论(0) 推荐(0)
摘要:获取带参数URL:request.get_all_path() 获取不带参数URL:request.path 获取主机地址:request.get_host() 阅读全文
posted @ 2017-08-07 14:30 言守中 阅读(10057) 评论(0) 推荐(1)
摘要:概念的理解:首先Cookie和Session一样,是django中用于视图保持状态的方案之一。为什么要进行视图保留呢,这是因为浏览器在向服务器发出请求时,服务器不会像人一样,有记忆,服务器像鱼一样,在你一次请求结束后她会很快忘掉你的,对她来说你的每一次请求都是新鲜的,这要是爱情就好了哈,可以爱情保鲜 阅读全文
posted @ 2017-07-30 13:11 言守中 阅读(1267) 评论(0) 推荐(0)