10 2020 档案
摘要:点击批量管理功能 控制台执行脚本,就全选中了 var arrs = $$('div.markup_choose'); for(var i=0;i<arrs.length;i++){ arrs[i].click(); }
阅读全文
摘要:抖音和国内设备,抖音风控导致许多做群控的改行了,所以下面不提群控的事情 1 苹果至少6S以上级别手机,或者相关IPAD,能装固件13 2 安卓,3+16G以上二手即可 3 UA加密狗硬改手机型号 4 定制机,二手R9S等 5 第三方批量搬运下载软件 6 第三方批量处理软件+AE+PR模板 7 电商橱
阅读全文
摘要:常见字符编码特征 1.以%开头的一般是做了URL编码的,用urllib.parse.unquote()解码。 2.以&#开头的一般是做了Unicode转义处理,html.unescape()做反转义。 3.以&#x开头的是做了Unicode 16进制转义,也用html.unescape()做反转义。
阅读全文
摘要:BeautifulSoup 剔除 HTML script 脚本,删除指定 class标签 剔除 script 方式一: [s.extract() for s in soup("script")] 方式二: def H5_filter(self): ''' 对爬取的 H5 进行过滤 :return:
阅读全文
摘要:1. 什么是爬虫和反爬虫? 爬虫:使用任何技术手段,批量获取网站信息的一种方式。 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。 2. 常见的反爬虫机制 通过UA 识别爬虫 有些爬虫的UA是特殊的,与正常浏览器的不一样,可通过识别特征UA,直接封掉爬虫请求 设置IP访问频率,如果
阅读全文
摘要:you-get You-Get是一个小型的命令行实用程序,用于从Web下载媒体内容(视频,音频,图像),以防没有其他方便的方法 官网: https://github.com/soimort/you-get/ 以下依赖关系是必需的,必须单独安装,除非您在Windows上使用预构建的软件包或巧克力软件包
阅读全文
摘要:介绍 Tesseract-OCR 是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能
阅读全文
摘要:Pyppeteer 引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome、Firefox 等等,然后还要到官方网站去下载对应的驱动 最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便,另外如果要做大规模部署的话,环境
阅读全文
摘要:全面支持解析JavaScript! CSS 选择器 (jQuery风格, 感谢PyQuery). XPath 选择器, for the faint at heart. 自定义user-agent (就像一个真正的web浏览器). 自动追踪重定向. 连接池与cookie持久化. 令人欣喜的请求体验,魔
阅读全文
摘要:1、什么是XPath XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。 XPath是什么? 全称为XML Path Language 一种小型的查询语言说道XPath
阅读全文
摘要:1、selenium是什么呢? selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。 它可以做什么呢?它可以用几行代码,控制浏览器,做出自动打开、输入、点击等操作,就像是有一个真正的用户在操作一样。 selenium允许让人去
阅读全文
摘要:Cookie简介 HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容。 对于服务器来说,并不关心,也并不知道是哪个用户的请求。 对于一般浏览性的网页来说,没有任何问题。 但是,现在很多的网站,是需要用户登录的。以淘宝为例:比如说某个用户想购买一个产品,当点击 “
阅读全文
摘要:Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 Beautiful Soup简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简
阅读全文
摘要:Requests 基本使用 python发送请求时,可以用requests模块,这个模块不是内置模块 需要安装 pip install requests Requests库的七个主要方法: 方法 描述 requests.request() 构造一个请求,支撑一下各方法的基础方法 requests.g
阅读全文
摘要:爬虫的流程 网络爬虫的流程其实非常简单 主要可以分为四部分: 一、发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers、data等信息,然后等待服务器响应。这个请求的过程就像我们打开浏览器,在浏览器地址栏输入网址:www.baidu.com,然后点击
阅读全文
摘要:一、爬虫趋势 随着大数据时代的来临,网络爬虫在互联网中的地位越来越重要 互联网中的数据是海量的,网络爬虫可以为我们自动高效的获取网络中对我们有用的信息 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者) 就是一种按照一定的规则,自动得爬取网络信息 这些规则我们称之为
阅读全文
摘要:不得不佩服 Spring Boot 的生态如此强大,今天我给大家推荐几款 Gitee 上优秀的后台开源版本的管理系统,小伙伴们再也不用从头到尾撸一个项目了,简直就是接私活,挣钱的利器啊。 SmartAdmin 我们开源一套漂亮的代码和一套整洁的代码规范,让大家在这浮躁的代码世界里感受到一股把代码写好
阅读全文

浙公网安备 33010602011771号