2020 年 10月随笔档案 - 短戈行

摘要：点击批量管理功能控制台执行脚本，就全选中了 var arrs = $$('div.markup_choose'); for(var i=0;i<arrs.length;i++){ arrs[i].click(); } 阅读全文

posted @ 2020-10-19 18:03 短戈行阅读(192) 评论(0) 推荐(0)

04.设备

摘要：抖音和国内设备，抖音风控导致许多做群控的改行了，所以下面不提群控的事情 1 苹果至少6S以上级别手机，或者相关IPAD，能装固件13 2 安卓，3+16G以上二手即可 3 UA加密狗硬改手机型号 4 定制机，二手R9S等 5 第三方批量搬运下载软件 6 第三方批量处理软件+AE+PR模板 7 电商橱阅读全文

posted @ 2020-10-13 14:49 短戈行阅读(182) 评论(0) 推荐(0)

1.14常见的5种字符编码特征

摘要：常见字符编码特征 1.以%开头的一般是做了URL编码的，用urllib.parse.unquote()解码。 2.以&#开头的一般是做了Unicode转义处理，html.unescape()做反转义。 3.以&#x开头的是做了Unicode 16进制转义，也用html.unescape()做反转义。阅读全文

posted @ 2020-10-06 22:52 短戈行阅读(614) 评论(0) 推荐(0)

1.13BeautifulSoup 剔除 HTML script 脚本；删除指定 class标签

摘要：BeautifulSoup 剔除 HTML script 脚本，删除指定 class标签剔除 script 方式一： [s.extract() for s in soup("script")] 方式二： def H5_filter(self): ''' 对爬取的 H5 进行过滤 :return: 阅读全文

posted @ 2020-10-06 22:51 短戈行阅读(454) 评论(0) 推荐(0)

1.12那些年你不知道的爬虫面试题

摘要：1. 什么是爬虫和反爬虫？爬虫：使用任何技术手段，批量获取网站信息的一种方式。反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。 2. 常见的反爬虫机制通过UA 识别爬虫有些爬虫的UA是特殊的，与正常浏览器的不一样，可通过识别特征UA，直接封掉爬虫请求设置IP访问频率，如果阅读全文

posted @ 2020-10-06 22:39 短戈行阅读(363) 评论(0) 推荐(0)

1.11you-get 视频爬取

摘要：you-get You-Get是一个小型的命令行实用程序，用于从Web下载媒体内容（视频，音频，图像），以防没有其他方便的方法官网： https://github.com/soimort/you-get/ 以下依赖关系是必需的，必须单独安装，除非您在Windows上使用预构建的软件包或巧克力软件包阅读全文

posted @ 2020-10-06 22:37 短戈行阅读(366) 评论(0) 推荐(0)

1.10pytesseract

摘要：介绍 Tesseract-OCR 是一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎。与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能阅读全文

posted @ 2020-10-06 22:36 短戈行阅读(151) 评论(0) 推荐(0)

1.9Pyppeteer

摘要：Pyppeteer 引言 Selenium 在被使用的时候有个麻烦事，就是环境的相关配置，得安装好相关浏览器，比如 Chrome、Firefox 等等，然后还要到官方网站去下载对应的驱动最重要的还需要安装对应的 Python Selenium 库，确实是不是很方便，另外如果要做大规模部署的话，环境阅读全文

posted @ 2020-10-06 22:35 短戈行阅读(192) 评论(0) 推荐(0)

1.8request-html

摘要：全面支持解析JavaScript! CSS 选择器 (jQuery风格, 感谢PyQuery). XPath 选择器, for the faint at heart. 自定义user-agent (就像一个真正的web浏览器). 自动追踪重定向. 连接池与cookie持久化. 令人欣喜的请求体验，魔阅读全文

posted @ 2020-10-06 22:33 短戈行阅读(201) 评论(0) 推荐(0)

1.7XPath

摘要：1、什么是XPath XPath在Python的爬虫学习中，起着举足轻重的地位，对比正则表达式 re两者可以完成同样的工作，实现的功能也差不多，但XPath明显比re具有优势，在网页分析上使re退居二线。 XPath是什么？全称为XML Path Language 一种小型的查询语言说道XPath 阅读全文

posted @ 2020-10-06 22:31 短戈行阅读(106) 评论(0) 推荐(0)

1.6Selenium XPath

摘要：1、selenium是什么呢？ selenium最初是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。它可以做什么呢？它可以用几行代码，控制浏览器，做出自动打开、输入、点击等操作，就像是有一个真正的用户在操作一样。 selenium允许让人去阅读全文

posted @ 2020-10-06 22:19 短戈行阅读(124) 评论(0) 推荐(0)

1.5cookies

摘要：Cookie简介 HTTP协议是无状态的协议，用户浏览服务器上的内容，只需要发送页面请求，服务器返回内容。对于服务器来说，并不关心，也并不知道是哪个用户的请求。对于一般浏览性的网页来说，没有任何问题。但是，现在很多的网站，是需要用户登录的。以淘宝为例：比如说某个用户想购买一个产品，当点击 “ 阅读全文

posted @ 2020-10-06 21:37 短戈行阅读(96) 评论(0) 推荐(0)

1.4Beautiful Soup

摘要：Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 Beautiful Soup简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简阅读全文

posted @ 2020-10-06 21:18 短戈行阅读(189) 评论(0) 推荐(0)

1.3Requests

摘要：Requests 基本使用 python发送请求时，可以用requests模块，这个模块不是内置模块需要安装 pip install requests Requests库的七个主要方法：方法描述 requests.request() 构造一个请求，支撑一下各方法的基础方法 requests.g 阅读全文

posted @ 2020-10-06 01:17 短戈行阅读(144) 评论(0) 推荐(0)

1.2爬虫的流程

摘要：爬虫的流程网络爬虫的流程其实非常简单主要可以分为四部分：一、发起请求通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers、data等信息，然后等待服务器响应。这个请求的过程就像我们打开浏览器，在浏览器地址栏输入网址：www.baidu.com，然后点击阅读全文

posted @ 2020-10-05 23:49 短戈行阅读(460) 评论(0) 推荐(0)

1.1爬虫能干什么

摘要：一、爬虫趋势随着大数据时代的来临，网络爬虫在互联网中的地位越来越重要互联网中的数据是海量的，网络爬虫可以为我们自动高效的获取网络中对我们有用的信息网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者）就是一种按照一定的规则，自动得爬取网络信息这些规则我们称之为阅读全文

posted @ 2020-10-05 23:40 短戈行阅读(1314) 评论(0) 推荐(0)

爬虫相关目录

摘要：阿萨德> 阅读全文

posted @ 2020-10-05 23:39 短戈行阅读(99) 评论(0) 推荐(0)

5个SpringBoot 项目

摘要：不得不佩服 Spring Boot 的生态如此强大，今天我给大家推荐几款 Gitee 上优秀的后台开源版本的管理系统，小伙伴们再也不用从头到尾撸一个项目了，简直就是接私活，挣钱的利器啊。 SmartAdmin 我们开源一套漂亮的代码和一套整洁的代码规范，让大家在这浮躁的代码世界里感受到一股把代码写好阅读全文

posted @ 2020-10-05 15:42 短戈行阅读(415) 评论(0) 推荐(0)

青山

Simple is better than complex.

10 2020 档案

公告