随笔分类 - 文本处理
摘要:在python中读取文件常用的三种方法:read(),readline(),readlines() 准备 假设a.txt的内容如下所示: Hello Welcome What is the fuck... 一、read([size])方法 read([size])方法从文件当前位置起读取size个字
阅读全文
摘要:wljdeMacBook-Pro:~ wlj$ scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html >>> response.url'https://doc.scrapy.org/en/latest/
阅读全文
摘要:使用XPath 保存为TXT 保存为csv 读取csv Excel打开乱码参考:excel打开csv文件显示乱码的处理方法_百度经验 保存到MongoDB 稍微改动 抛出异常 raise DuplicateKeyError(error.get("errmsg"), 11000, error) pym
阅读全文
摘要:1、字典(dict) a = {'name': 'wanglinjie', 'age': 26, 'city': 'beijing'} >>> a = {'name': 'wanglinjie', 'age': 26, 'city': 'beijing'} >>> a {'name': 'wangl
阅读全文
摘要:响应文件 导入LinkExtractor,匹配整个html文档中的链接 from scrapy.linkextractors import LinkExtractor
阅读全文
摘要:ORC库概述 在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python 一直都是非常出色的语言。虽然有很多库可以进行图像处理,在这里只重点介绍:Tesseract Tesseract Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR
阅读全文
摘要:为什么要学正则表达式 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数
阅读全文
摘要:切片 输出:abc 输出:de 输出:cdef 给定一个字符串aStr, 请反转字符串
阅读全文
摘要:>>> a='abcdefg' >>> a 'abcdefg' >>> a[::-2] 'geca' >>> a[::] 'abcdefg' >>> a[::-1] 'gfedcba' >>> a = 'abcdef' >>> a 'abcdef' >>> a[::-1] 'fedcba' >>> a
阅读全文

浙公网安备 33010602011771号