随笔档案「2017年11月」 - yonziliu

爬虫：Scrapy5 - 选择器Selectors

摘要：当抓取网页时，常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的： BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors)，因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。构造选阅读全文

posted @ 2017-11-26 19:00 yonziliu 阅读(270) 评论(0) 推荐(0)

Selenium Webdriver元素定位的八种常用方式

摘要：在使用selenium webdriver进行元素定位时，通常使用findElement或findElements方法结合By类返回的元素句柄来定位元素。其中By类的常用定位方式共八种，现分别介绍如下。 1. By.name() 假设我们要测试的页面源码如下：当我们要用name属性来引用这个but 阅读全文

posted @ 2017-11-20 08:50 yonziliu 阅读(310) 评论(0) 推荐(0)

Python——字典与字典方法

摘要：字典是一种通过名字或者关键字引用的得数据结构，其键可以是数字、字符串、元组，这种结构类型也称之为映射。字典类型是Python中唯一內建的映射类型，基本的操作包括如下： (1)len()：返回字典中键—值对的数量； (2)d[k]:返回关键字对于的值； (3)d[k]=v:将值关联到键值k上； (4) 阅读全文

posted @ 2017-11-13 09:07 yonziliu 阅读(428) 评论(0) 推荐(0)

XPath在python中的高级应用

摘要：XPath在python的爬虫学习中，起着举足轻重的地位，对比正则表达式 re两者可以完成同样的工作，实现的功能也差不多，但XPath明显比re具有优势，在网页分析上使re退居二线。 XPath介绍：是什么？全称为XML Path Language 一种小型的查询语言说道XPath是门语言，不阅读全文

posted @ 2017-11-06 08:56 yonziliu 阅读(941) 评论(0) 推荐(0)

sthu

11 2017 档案

公告