05 2019 档案
摘要:上回我们说到<!--more--> python爬虫29 | 使用scrapy爬取糗事百科的例子,告诉你它有多厉害! WOW!! scrapy awesome!! 怎么会有这么牛逼的框架 wow!! awesome!! 用 scrapy 来爬取数据 岂!不!是!非!常!爽! wow!! 接下来就是我
阅读全文
摘要:是时候<!--more-->给你说说 爬虫框架了 使用框架来爬取数据 会节省我们更多时间 很快就能抓取到我们想要抓取的内容 框架集合了许多操作 比如请求,数据解析,存储等等 都可以由框架完成 有些小伙伴就要问了 你他妈的 为什么不早点说呢? 是这样的 当你不知道 1+1 是什么的时候 你去使用计算器
阅读全文
摘要:上次 我们知道了怎么操作 MySQL 数据库<!--more--> python爬虫26 | 把数据爬取下来之后就存储到你的MySQL数据库。 MySQL 有些年头了 开源又成熟又牛逼 所以现在很多企业都在使用 MySQL MySQL 是关系型数据库 其实当前主流的数据库 例如 Oracle、DB2
阅读全文
摘要:通过这段时间<!--more--> 小帅b教你从抓包开始 到数据爬取 到数据解析 再到数据存储 相信你已经能抓取大部分你想爬取的网站数据了 恭喜恭喜 但是 数据抓取下来 要好好分析一波 最好的方式就是把数据进行可视化 这样才能直观的感受到数据的魅力 不过有一点 现在市面上可以使用 python 的可
阅读全文
摘要:大家好 我是小帅b 是一个练习时长两年半的练习生 喜欢 唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思 我又走错片场了 接下来的几篇文章 小帅b将告诉你 如何将你爬取到的数据保存下来 有文本文件、redis、数据库(MySQL、MangoDB)等的存储方式 今天先说说 CSV 什么是 CS
阅读全文
摘要:小帅b说过 在这几篇中会着重说说将爬取下来的数据进行存储 上次我们说了一种 csv 的存储方式 这次主要来说说怎么将爬取下来的数据保存到 MySQL 数据库 接下来就是 学习python的正确姿势 真香假设 本文假设你已经安装好MySQL 并且懂了一些 MySQL 的使用 例如简单“增删改查”的语句
阅读全文
摘要:昨天小帅b看到一些事情不顺眼 有人偷换概念 忍不住就写了一篇反讽 996 的 看不下去了,我支持996,年轻人就该996! 没想到有些人看不懂 这就算了 还来骂我 早些时候关注我的小伙伴应该知道我第一时间就发过反对 996 的文章 去他妈的996! python之父就是牛逼 哎~ 不过也好 洗掉一些
阅读全文
摘要:你有没有想过让你的手机帮你自动完成某些事情 比如自动帮你抢红包 有些软件不是有签到活动么 这些傻瓜式的操作 能不能让手机自动签到呢? 自动帮你叫外卖 自动帮你打电话 等等 还有 对于手机上的一些比较难以通过抓包获取的数据 想不想像 selenium 那样轻松获取? 之前小帅b就给大家介绍了 sele
阅读全文
摘要:接下来就是 学习python的正确姿势 做爬虫 绕不开模拟登录 为此小帅b给大家支了几招 python爬虫19 | 遇到需要的登录的网站怎么办?用这3招轻松搞定! 有些网站的登录很弱鸡 传个用户名和密码 来个 POST 请求就搞定了 但还是少数 大多网站还是需要验证码的 登录需要验证码 频繁请求需要
阅读全文
摘要:今天 要来说说滑动验证码了 大家应该都很熟悉 点击滑块然后移动到图片缺口进行验证 现在越来越多的网站使用这样的验证方式 为的是增加验证码识别的难度 那么 对于这种验证码 应该怎么破呢 接下来就是 学习 python 的正确姿势 打开 b 站的登录页面 https://passport.bilibil
阅读全文
摘要:你好 由于你是游客 无法查看本文 请你登录再进 谢谢合作 当你在爬某些网站的时候 需要你登录才可以获取数据 咋整? 莫慌 小帅b把这几招传授给你 让你以后从容应对 那么 接下来就是 学习 python 的正确姿势 登录的常见方法无非是这两种 1、让你输入帐号和密码登录 2、让你输入帐号密码+验证码登
阅读全文
摘要:当你在爬取某些网站的时候 对于你的一些频繁请求 对方会阻碍你 常见的方式就是使用验证码 验证码的主要功能 就是区分你是人还是鬼(机器人) 人 想法设法的搞一些手段来对付技术 而 技术又能对付人们的想法 一来一去 就有了各种各样的变态验证码 也有了各种各样的应对方式 常见的验证码有这么几种 图像验证
阅读全文
摘要:我们在之前的文章谈到了高效爬虫 在 python 中 多线程下的 GIL 锁会让多线程显得有点鸡肋 特别是在 CPU 密集型的代码下 多线程被 GIL 锁搞得效率不高 特别是对于多核的 CPU 来说 如果想要充分利用 CPU 还是用多进程吧 这样我们就可以做到并行爬取 提高了爬取的效率 那么,怎么玩
阅读全文
摘要:这两天 有小伙伴问小帅b 为什么我爬取 xx 网站的时候 不返回给我数据 而且还甩一句话给我 “系统检测到您频繁访问,请稍后再来” 小帅b看了一下他的代码 for i in range(1,10000): requests.get(url) 瞬间震惊了 这就感觉 被连续 fxxk 了 1w 次 你说
阅读全文
摘要:我们上次说了伪装头部 ↓ python爬虫17 | 听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部 让自己的 python 爬虫假装是浏览器 小帅b主要是想让你知道 在爬取网站的时候 要多的站在对方的角度想问题 其实 这和泡妞差不多 你要多站在妹纸的角度思考 她的兴趣是什么 她喜欢
阅读全文
摘要:有时候 只是在人群中多看了一眼 就再也没办法忘掉那些容颜 小帅b在普通的一天 上着普通的网 不小心打开了一个不太普通的网站 https://www.mzitu.com/ 从此进入了不普通的一天 看着不普通的妹纸 动起了不普通的心思 恩 这么多妹纸 不爬取下来 可惜了 那么 接下来就是 学习 pyth
阅读全文
摘要:快 快了 啊 嘿 小老弟 想啥呢 今天这篇爬虫教程的主题就是一个字 快 想要做到秒爬 就需要知道 什么是多进程 什么是多线程 什么是协程(微线程) 你先去沏杯茶 坐下来 小帅b这就好好给你说道说道 关于线程这玩意 沏好茶了吗 那么 接下来就是 学习 python 的正确姿势 首先我们来了解什么是进程
阅读全文
摘要:你知道吗? 在我的心里 你是多么的重要 就像 恩 请允许我来一段 freestyle 你们准备好了妹油 你看 这个碗 它又大又圆 就像 这条面 它又长又宽 你们 在这里 看文章 觉得 很开心 就像 我在这里 给你们 写文章 觉得很开心 skr~~ 不好意思 走错片场了 ok.. 接下来,就是 学习
阅读全文
摘要:在上一篇中 python爬虫10 | 网站维护人员:真的求求你们了,不要再来爬取了!! 小帅b给大家透露了我们这篇要说的牛逼利器 selenium + phantomjs 如果你看了 python爬虫09 | 上来,自己动 !这就是 selenium 的牛逼之处 那么你应该知道 selenium 是
阅读全文
摘要:在前面我们玩了好多静态的 HTML 想必你应该知道怎么去爬这些数据了 但还有一些常见的动态数据 比如 商品的评论数据 实时的直播弹幕 岛国动作片的评分 等等 这些数据是会经常发生改变的 很多网站就会用到 Json 来传输这些数据 因为 Json 非常轻量 用 key-value 的形式封装成对象 就
阅读全文
摘要:今天 小帅b想给大家讲一个小明的小故事 ... 话说 在很久很久以前 小明不小心发现了一个叫做 学习python的正确姿势 的公众号 从此一发不可收拾 看到什么网站都想爬取 有一天 小明发现了一个小黄网 里面的小姐姐 一个比一个诱人 看了一会这个小黄网 小明不知道在倒腾什么 反正30秒之后小明虎躯一
阅读全文
摘要:作为一个男人 在最高光的时刻 就是说出那句 之后 还不会被人打 ... 虽然在现实生活中你无法这样 但是在这里 就让你体验一番 那种呼风唤雨的感觉 我们之前在爬取某些网站的时候 使用到了一些 python 的请求库 模拟浏览器的请求 我们需要抓包啥的 能不能不这样 可不可以就写几行代码 让它自己去打
阅读全文
摘要:我们上次做了 你的第一个爬虫,爬取当当网 Top 500 本五星好评书籍 有些朋友觉得 利用正则表达式去提取信息 太特么麻烦了 有没有什么别的方式 更方便过滤我们想要的内容啊 emmmm 你还别说 还真有 有一个高效的网页解析库 它的名字叫做 BeautifulSoup 那可是 它 是一个可以从 H
阅读全文
摘要:马上就要过年啦 过年在家干啥咧 准备好被七大姑八大姨轮番「轰炸」了没? 你的内心 os 是这样的 但实际上你是这样的 应付完之后 闲暇时刻不妨看看电影 接下来咱们就来爬取豆瓣上评分最高的 250部电影 这次我们就要来使用上次说的 BeautifulSoup + Reuqests 进行爬取啦 这次 我
阅读全文
摘要:现在 你已经会使用 python 模拟浏览器 进行一些 Http 的请求了 那么请求完之后 服务器返回给我们一堆源代码 我们可不是啥都要的啊 我们是有原则的 我们想要的东西 怎么能一股脑的啥都往自己兜里塞呢? 使不得 使不得 所以 在服务器返回给我们的源码之中 我们要过滤 拿到我们想要的就好 其它就
阅读全文
摘要:来啦,老弟 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 ... 那么接下来 我们就使用 requests 和 re 来写一个爬虫 作为一个爱看书的你(说的跟真的似的) 怎么能发现好书呢? 所以我们 爬取当当网的前
阅读全文
摘要:最近 有些朋友 看完小帅b的文章之后 把小帅b的表情包都偷了 还在我的微信 疯狂发表情包嘚瑟 我就呵呵了 只能说一句 盘他 还有一些朋友 看完文章不点好看 还来催更 小帅b也只能说一句 继续盘他 ok 接下来我们要来玩一个新的库 这个库的名称叫做 Requests 这个库比我们上次说的 urllib
阅读全文
摘要:相信你已经摸清了 浏览器各种请求的套路 也知道了怎么在手机上进行请求和返回数据的抓取 那么接下来我们就开始来使用 python 了 代码 lu 起来 那么 怎么用 python 写各种请求呢? 今天要给大家介绍的就是 Urllib 这可是 python 内置的库 有了它 我们写代码就轻松了 腰也不疼
阅读全文
摘要:哟~哟~哟~ hi起来 everybody 今天要说说怎么在我们的手机抓包 通过 python爬虫入门01:教你在Chrome浏览器轻松抓包 我们知道了 HTTP 的请求方式 以及在 Chrome 中摸清了一些套路 但是 除了对数据进行解析之外 有时候我们想 对请求的数据或者响应的数据进行篡改 怎么
阅读全文
摘要:小帅b带你玩python,fxxkpython.com
阅读全文

浙公网安备 33010602011771号