11 2017 档案

摘要:当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的: BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。 构造选 阅读全文
posted @ 2017-11-26 19:00 yonziliu 阅读(270) 评论(0) 推荐(0)
摘要:在使用selenium webdriver进行元素定位时,通常使用findElement或findElements方法结合By类返回的元素句柄来定位元素。其中By类的常用定位方式共八种,现分别介绍如下。 1. By.name() 假设我们要测试的页面源码如下: 当我们要用name属性来引用这个but 阅读全文
posted @ 2017-11-20 08:50 yonziliu 阅读(310) 评论(0) 推荐(0)
摘要:字典是一种通过名字或者关键字引用的得数据结构,其键可以是数字、字符串、元组,这种结构类型也称之为映射。字典类型是Python中唯一內建的映射类型,基本的操作包括如下: (1)len():返回字典中键—值对的数量; (2)d[k]:返回关键字对于的值; (3)d[k]=v:将值关联到键值k上; (4) 阅读全文
posted @ 2017-11-13 09:07 yonziliu 阅读(428) 评论(0) 推荐(0)
摘要:XPath在python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。 XPath介绍: 是什么? 全称为XML Path Language 一种小型的查询语言 说道XPath是门语言,不 阅读全文
posted @ 2017-11-06 08:56 yonziliu 阅读(941) 评论(0) 推荐(0)