摘要: selenium + chrome 很多难以采集的网站都使用selenium爬取,但是后来发现 有特征值,会被检测出来,今天来小结一下反反爬方案 "测试网站" 全绿好像代表没被检测出 中间人修改js 网上很多都是这种博客,不知道靠不靠谱 pyppeteer 这种python的异步请求库,似乎极好的解阅读全文
posted @ 2019-03-18 15:57 happy_codes 阅读(33) 评论(0) 编辑
摘要: 学习于 "理解协程原理" "协程的使用"阅读全文
posted @ 2019-03-12 17:47 happy_codes 阅读(1) 评论(0) 编辑
摘要: [TOC] "上篇:介绍selenium grid" 一、安装Docker 必须要使用 版(注意),不要装错,装错了卸载并换源,ubuntu和Centos7不一样,就不细说了, "官方教程" 二、安装Docker Compose库 环境 需要 或 其余版本没试过 CentOS7 先装 ,再装 Ubu阅读全文
posted @ 2019-03-08 17:37 happy_codes 阅读(7) 评论(0) 编辑
摘要: [TOC] 瞎扯一句 最近在做一个关于 selenium 相关的项目,在选择浏览器方面,一般有3种方案: 1. chrome 2. phantomJs 3. firefox(推荐) 网上有很多教程是关于PhantomJS的,可是,在2018.3.4日,git开源项目上,ariya宣布暂停更新,具体时阅读全文
posted @ 2019-02-28 15:05 happy_codes 阅读(21) 评论(0) 编辑
摘要: [TOC] 一、docker安装 Ubuntu 1.检查内核版本大于3.10 2.更新apt源 3.安装docker 4.(建议)更新成国内源 为了永久性保留更改,您可以修改 /etc/docker/daemon.json 文件并添加上 registry mirrors 键值。 修改保存后重启 Do阅读全文
posted @ 2019-02-20 16:27 happy_codes 阅读(21) 评论(0) 编辑
摘要: 问题 今天在使用pymysql连数据库的时候,出现了一个bug,查询数据库某个数据,但是在我在数据库中执行sql语句改变数据后,pymsql的查询依然没有发生改变。 代码如下: 解决问题 首先,我们还是找出问题原因,并解决它,查阅相关文档后可知,因为我们的查询语句执行后,没有 ,这会导致查询事务没有阅读全文
posted @ 2019-02-14 15:51 happy_codes 阅读(12) 评论(0) 编辑
摘要: 同步请求库requests用来做测试和简单爬虫其实非常好用的,今天来讲一讲,毕竟不熟悉就用,吃了很大亏啊,文档一定要好好看 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html 一、最简单常用的用法 GET请求 POST请阅读全文
posted @ 2019-01-30 10:21 happy_codes 阅读(13) 评论(0) 编辑
摘要: 一、下载,安装python3和python2 地址:https://www.python.org/downloads/windows/ 可以点选latest:2.7和3.7 1.下载安装python3 下载完msi文件后,安装,python3可以,点击勾选 add python3.6 to path阅读全文
posted @ 2019-01-29 15:25 happy_codes 阅读(10) 评论(0) 编辑
摘要: 这几天,又用到了scrapy框架写爬虫,感觉忘得差不多了,虽然保存了书签,但有些东西,还是多写写才好啊 首先,官方而经典的的开发手册那是需要的: https://doc.scrapy.org/en/latest/intro/tutorial.html 一、创建项目 命令行cd到合适的目录: 就新建了阅读全文
posted @ 2019-01-23 14:45 happy_codes 阅读(62) 评论(0) 编辑
摘要: 今天开始利用docker来部署项目,当然,首先,需要安装好Docker,这个在我的上篇中写了 一、准备项目 我写的是一个爬取某ppt网站的代码,就一个ppt1.py是爬虫,然后,ppts是存放下载的ppt的 二、准备requirement.txt文件 这个是需要哪些python库支持,写好 三、准备阅读全文
posted @ 2019-01-20 21:01 happy_codes 阅读(33) 评论(0) 编辑
摘要: 这几天捣鼓了一下docker,是真的麻烦啊,网上资料比较杂乱,也很多英文,学起来挺多问题的 Docker下载 win10专业版:开启Hyper-V,下载并安装 docker-for-windows(但是我的电脑用这个装一直有问题。。。) 在控制面板->程序->启用或关闭Windows功能,在弹出框中阅读全文
posted @ 2019-01-16 22:07 happy_codes 阅读(8) 评论(0) 编辑
摘要: 首先,我要爬的是这个网站:http://www.66ip.cn/nm.html,我想做个直接调用网站的接口获取代理的爬虫 这个接口看上去似乎很简单,直接输入需要的代理条件后,点击提取即可 点击提取后就是一个个ip了, 废话不多说,按f12点开, 发现需要两个cookie值,不知道从哪来,删掉cook阅读全文
posted @ 2019-01-06 00:10 happy_codes 阅读(35) 评论(0) 编辑
摘要: 写爬虫真不是件简单的事 学习了大概两个月的爬虫,渐渐感觉到写爬虫并不是件简单的事,有诸多的考虑,先简单的记录一下,有时间分部分做示例 一、学习爬虫知识 我是从python3开始做爬虫的,首先,python3的语法必须知道,不过python3并不难,语法也非常简洁。但是,写着发现有个毛病,就是比如一个阅读全文
posted @ 2019-01-04 13:20 happy_codes 阅读(131) 评论(0) 编辑
摘要: 转载于:刘羽冲 两句话掌握python最难知识点——元类 千万不要被所谓“元类是99%的python程序员不会用到的特性”这类的说辞吓住。因为每个中国人,都是天生的元类使用者 学懂元类,你只需要知道两句话: 道生一,一生二,二生三,三生万物 我是谁?我从哪来里?我要到哪里去? 在python世界,拥阅读全文
posted @ 2018-12-16 16:06 happy_codes 阅读(9) 评论(0) 编辑
摘要: 结果阅读全文
posted @ 2018-12-03 10:58 happy_codes 阅读(7) 评论(0) 编辑
摘要: Scrapy命令和备注 1.创建一个新项目(命令行) project是项目名 2.调试项目(pycharm) 在pycharm中新建cmdline.py 加断点,debug运行即可 3.暂停和重启项目(命令行) spidername是爬虫的名字 JOB_DIR是写在项目的settings.py中的 阅读全文
posted @ 2018-11-30 15:44 happy_codes 阅读(4) 评论(0) 编辑
摘要: 今天去面试,考了这个,短时间没想出来。。。 太笨了! 后来想用栈和递归做 但是看了网上才知道,可以将中缀表达式转为后缀表达式,就极其方便了。 import java.util.Scanner; import java.util.Stack; public class ExpressionCalc {阅读全文
posted @ 2018-10-14 21:36 happy_codes 阅读(115) 评论(0) 编辑
摘要: 最近电脑硬盘坏了Orz...,重装了。唉!软件什么的都要重新装,重新设置,好麻烦! 我决定写下重装javaweb开发环境的过程 1.Java的安装,配置 https://www.runoob.com/java/java-environment-setup.html 2.Eclipse的下载和设置 下阅读全文
posted @ 2018-08-29 11:20 happy_codes 阅读(13) 评论(0) 编辑
摘要: 0. 安装好git,配置正确 网上教程很多,略 1. 将eclipse中的项目放入git本地库 1.右键项目-->Team-->Share Project 2.勾选 Use or create repository in parent folder of project 这样会将改项目放在一个新建的阅读全文
posted @ 2018-08-10 15:36 happy_codes 阅读(237) 评论(0) 编辑
摘要: 爬取虎牙直播分类页面的主播的头像,名字,人气 今天学习了python3爬虫,上课闲着无聊,自己写了一个爬虫 就顺着老师思路 爬了虎牙直播分类页面的主播,头像,名字,和人气 HuYaCateScrapy.py 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 阅读全文
posted @ 2018-08-08 17:15 happy_codes 阅读(62) 评论(0) 编辑