文本处理 - 随笔分类 - 王琳杰

Python中read()、readline()和readlines()三者间的区别和用法

摘要：在python中读取文件常用的三种方法：read(),readline(),readlines() 准备假设a.txt的内容如下所示： Hello Welcome What is the fuck... 一、read([size])方法 read([size])方法从文件当前位置起读取size个字阅读全文

posted @ 2019-09-26 23:35 王琳杰阅读(1204) 评论(0) 推荐(0)

提取网页数据

摘要：wljdeMacBook-Pro:~ wlj$ scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html >>> response.url'https://doc.scrapy.org/en/latest/ 阅读全文

posted @ 2018-07-02 21:38 王琳杰阅读(346) 评论(0) 推荐(0)

XPath的使用[爬取知乎发现]文件存储[txt，json，csv，mongodb]

摘要：使用XPath 保存为TXT 保存为csv 读取csv Excel打开乱码参考：excel打开csv文件显示乱码的处理方法_百度经验保存到MongoDB 稍微改动抛出异常 raise DuplicateKeyError(error.get("errmsg"), 11000, error) pym 阅读全文

posted @ 2018-06-30 20:35 王琳杰阅读(1352) 评论(0) 推荐(0)

Python中list、tuple、str和dict之间的相互转换

摘要：1、字典（dict） a = {'name': 'wanglinjie', 'age': 26, 'city': 'beijing'} >>> a = {'name': 'wanglinjie', 'age': 26, 'city': 'beijing'} >>> a {'name': 'wangl 阅读全文

posted @ 2018-06-24 20:49 王琳杰阅读(5283) 评论(0) 推荐(0)

文本提取及处理

摘要：文本提取及处理标题提取：正文提取： python3中处理：阅读全文

posted @ 2018-06-22 00:24 王琳杰阅读(933) 评论(0) 推荐(0)

LinkExtractor

摘要：响应文件导入LinkExtractor，匹配整个html文档中的链接 from scrapy.linkextractors import LinkExtractor 阅读全文

posted @ 2018-06-21 21:20 王琳杰阅读(492) 评论(0) 推荐(0)

处理给规范的文字

摘要：ORC库概述在读取和处理图像、图像相关的机器学习以及创建图像等任务中，Python 一直都是非常出色的语言。虽然有很多库可以进行图像处理，在这里只重点介绍：Tesseract Tesseract Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 阅读全文

posted @ 2018-06-17 22:21 王琳杰阅读(263) 评论(0) 推荐(0)

正则表达式

摘要：为什么要学正则表达式实际上爬虫一共就四个主要步骤：明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据（按照我们想要的方式存储和使用）我们在昨天的案例里实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数阅读全文

posted @ 2018-06-14 21:34 王琳杰阅读(122) 评论(0) 推荐(0)

切片

摘要：切片输出：abc 输出：de 输出：cdef 给定一个字符串aStr, 请反转字符串阅读全文

posted @ 2018-05-29 23:15 王琳杰阅读(271) 评论(0) 推荐(0)

字符串

摘要：>>> a='abcdefg' >>> a 'abcdefg' >>> a[::-2] 'geca' >>> a[::] 'abcdefg' >>> a[::-1] 'gfedcba' >>> a = 'abcdef' >>> a 'abcdef' >>> a[::-1] 'fedcba' >>> a 阅读全文

posted @ 2018-05-29 23:14 王琳杰阅读(173) 评论(0) 推荐(0)

一蓑烟雨

随笔分类 - 文本处理

公告