文章分类 - 爬虫
摘要:返回 我的技术栈(Technology Stack) Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS
        阅读全文
                
摘要:返回 我的技术栈(Technology Stack) Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。
        阅读全文
                
摘要:返回 我的技术栈(Technology Stack) JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 import json 
        阅读全文
                
摘要:返回 我的技术栈(Technology Stack) 什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义 XML 被设计为具有自我描述性 
        阅读全文
                
摘要:返回 我的技术栈(Technology Stack) 原始字符串定义 原始字符串(raw string)的定义:所有的字符串都是直接按照字面的意思来使用,没有转义或不能打印的字符串,原始字符串往往针对特殊字符而言 在正则中时需要注意
        阅读全文
                
摘要:返回 我的技术栈(Technology Stack) 正则表达式(Regular Expression),又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 Regular Expression的“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即是
        阅读全文
                
摘要:返回 我的技术栈(Technology Stack) 什么是XPath XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言, 可用来在 HTML\XML 文档中对元素和属性进行遍历。 W3School官方文档:http://www.w3school.
        阅读全文
                
摘要:返回 我的技术栈(Technology Stack) response.text 类型:str response.text 返回的是Unicode格式的数据 解码类型: 根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码 修改编码方式:response.encoding="gbk" 使用
        阅读全文
                
摘要:返回 我的技术栈(Technology Stack) str str以 unicode的呈现形式。 Unicode UTF8 ASCII的补充: 字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。 字符集(Character set)是多个字符的集合。 字
        阅读全文
                
摘要:返回 我的技术栈(Technology Stack) 爬虫定义: 网络爬虫(又被称为网页蜘蛛,网络机器人),主要是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 【只要是浏览器能做的事情,原则上,爬虫都可以做】 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦
        阅读全文
                

 浙公网安备 33010602011771号
浙公网安备 33010602011771号