2018 年 12月 19 日随笔档案 - 安迪9468

2018年12月19日

摘要：一、xpath提取内容 1、提取节点中最表层的文本 htmlobj.xpath("./text()") 在scrapy中用extract()[0]方法抽取文本。如： temp['title'] = node.xpath('./text()').extract()[0].strip()temp['ti 阅读全文

posted @ 2018-12-19 17:48 安迪9468 阅读(436) 评论(0) 推荐(0)

xpath教程 2 - lxml库

摘要： xpath教程 2 - lxml库 lxml库 lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素阅读全文

posted @ 2018-12-19 15:49 安迪9468 阅读(323) 评论(0) 推荐(0)

xpath教程 1 - 什么是XPath

摘要： xpath教程 1 谷歌安装xpath：https://blog.csdn.net/yhnobody/article/details/81030436 什么是XPath？ XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性阅读全文

posted @ 2018-12-19 15:47 安迪9468 阅读(441) 评论(0) 推荐(0)

公告