爬虫 - 文章分类 - 言非

Selenium和PhantomJS

摘要：返回我的技术栈(Technology Stack) Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS 阅读全文

posted @ 2021-07-03 20:12 言非阅读(511) 评论(0) 推荐(0)

多线程爬虫

摘要：返回我的技术栈(Technology Stack) Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。阅读全文

posted @ 2021-07-03 19:25 言非阅读(49) 评论(0) 推荐(0)

loads、dumps、load、dump转换

摘要：返回我的技术栈(Technology Stack) JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 import json 阅读全文

posted @ 2021-07-03 19:09 言非阅读(211) 评论(0) 推荐(0)

XML 和 HTML 的区别

摘要：返回我的技术栈(Technology Stack) 什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义 XML 被设计为具有自我描述性阅读全文

posted @ 2021-07-03 18:59 言非阅读(89) 评论(0) 推荐(0)

Python中原始字符串 r 的用法

摘要：返回我的技术栈(Technology Stack) 原始字符串定义原始字符串（raw string）的定义：所有的字符串都是直接按照字面的意思来使用，没有转义或不能打印的字符串，原始字符串往往针对特殊字符而言在正则中时需要注意阅读全文

posted @ 2021-07-03 13:14 言非阅读(597) 评论(0) 推荐(0)

正则表达式

摘要：返回我的技术栈(Technology Stack) 正则表达式（Regular Expression），又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。 Regular Expression的“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即是阅读全文

posted @ 2021-07-03 12:58 言非阅读(148) 评论(0) 推荐(0)

XPath

摘要：返回我的技术栈(Technology Stack) 什么是XPath XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。 W3School官方文档：http://www.w3school. 阅读全文

posted @ 2021-07-03 10:51 言非阅读(299) 评论(0) 推荐(0)

response.text 和response.content的区别

摘要：返回我的技术栈(Technology Stack) response.text 类型：str response.text 返回的是Unicode格式的数据解码类型：根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码修改编码方式：response.encoding="gbk" 使用阅读全文

posted @ 2021-07-03 10:19 言非阅读(1107) 评论(0) 推荐(0)

str、bytes、bytearray的区别

摘要：返回我的技术栈(Technology Stack) str str以 unicode的呈现形式。 Unicode UTF8 ASCII的补充: 字符(Character)是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合。字阅读全文

posted @ 2021-07-01 23:11 言非阅读(270) 评论(0) 推荐(0)

通用爬虫与聚焦爬虫

摘要：返回我的技术栈(Technology Stack) 爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器人），主要是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。【只要是浏览器能做的事情，原则上，爬虫都可以做】根据使用场景，网络爬虫可分为通用爬虫和聚焦阅读全文

posted @ 2021-07-01 22:48 言非阅读(391) 评论(0) 推荐(0)

Loading

言非の博客

机器学习、复杂网络

文章分类 - 爬虫

公告