摘要:(1).网络爬虫引发的问题 网络爬虫是一个很有趣的功能,它既能获得网络上的资源,但是它可以带来很多很严重的问题。 我们现在常用的网络爬虫,按尺寸划分可以分为三大类。第一类是指以爬取网页或者玩转网页为主的一类爬虫,这类爬虫规模很小,获取网络的数据量也很小,它对爬取网页的速度并不敏感,针对这一类的网络爬 阅读全文
posted @ 2020-08-12 15:38 苦逼运维 阅读(66) 评论(0) 推荐(0) 编辑
摘要:Requests库是Python的第三方库,它是目前公认的爬取网页最好的第三方库。Requests库有两个特点,它很简单简单,也很简洁,甚至用一行代码从网页上获得相关的资源。Requests库的更多信息可以在https://requests.readthedocs.io/en/master/上获得。 阅读全文
posted @ 2020-08-09 09:30 苦逼运维 阅读(51) 评论(0) 推荐(0) 编辑
摘要:当执行在Windows系统下修改过的脚本时,会提示存在^M的错误,但是在Linux下直接使用vim打开并不存在。此时可以使用vim -b来打开脚本文件,就可以发现每行的末尾都存在^M。 造成这样的原因是不同的系统使用了不同的换行符。在Windows下文本文件的每一行结尾都有一个回车('\n')和换行 阅读全文
posted @ 2020-08-02 21:00 苦逼运维 阅读(168) 评论(0) 推荐(1) 编辑
摘要:使用什么样的IDE来开发Python程序? 这里所说的IDE是指集成开发环境,也就是我们编写、调试和发布Python程序工具。常用的Python IDE包含文本工具类和集成工具类两个大类,下图列出了常用的12个Python IDE工具。注意:集成工具中前四个是通用类开发工具,后两个是科学计算和数据分 阅读全文
posted @ 2020-04-30 23:27 苦逼运维 阅读(285) 评论(0) 推荐(0) 编辑
摘要:涉及概念:框架,可以理解为一种功能的半成品,它将很多的基础功能都已经完成,只需要用户进行扩展开发或者额外配置,就可以形成用户功能的特定系统。 (1).从数据处理到人工智能 这里会介绍从数据处理到人工智能的完整链条,其中包括:数据表示->数据清洗->数据统计->数据格式化->数据可视化->数据挖掘-> 阅读全文
posted @ 2020-04-25 14:22 苦逼运维 阅读(362) 评论(0) 推荐(0) 编辑
摘要:(1).介绍 os库是与操作系统相关的库,它提供了通用的基本的操作系统交互功能。os库是Python的标准库之一,它里面包含几百个处理函数,能够处理与操作系统相关的功能,包括路径操作、进程管理、环境参数设置等几类功能。其中路径操作是利用os.path子库,它用于处理文件以及目录的路径,并获得相关的信 阅读全文
posted @ 2020-04-14 22:27 苦逼运维 阅读(119) 评论(0) 推荐(0) 编辑
摘要:Python有一个全球社区:https://pypi.org/,在这里我们可以搜索任何主题的Python第三方库。PyPI全称是Python Package Index,指的是Python包的索引,它由PSF(Python Software Foundation)来维护,并且展示全球Python计算 阅读全文
posted @ 2020-04-13 16:52 苦逼运维 阅读(537) 评论(0) 推荐(0) 编辑
摘要:(1).介绍 wordcloud是优秀的词云展示第三方库,wordcloud能够将一段文本变成一个词云。 词云就是将词语通过图形可视化的方式,直观和艺术的展示出来。词云在我们的生活中经常能够看到,无论是中文的词云还是英文的词云。 安装第三方库需要使用pip工具,在命令行下运行安装命令(不是IDLE) 阅读全文
posted @ 2020-04-08 14:49 苦逼运维 阅读(823) 评论(0) 推荐(0) 编辑
摘要:(1).文件的使用 1)文件的类型 文件是数据的抽象和集合,可以理解为文件是存储在辅助存储器上的数据序列,是数据存储的一种形式。具体来说,文件都是以二进制方式来存储的,但是它有不同的展现形态。在程序设计中一般有两种展现形态,分别叫文本文件和二进制文件。 文本文件和二进制文件只是文件的展示方式。从本质 阅读全文
posted @ 2020-04-07 16:53 苦逼运维 阅读(427) 评论(0) 推荐(0) 编辑
摘要:(1).介绍 map()函数会根据提供的<函数名>参数对提供的一个或多个<序列名>参数做映射,即<函数名>参数会逐一对<序列名>参数内的所有元素进行处理,并返回处理后的新列表给<序列名>。 使用方法:map(<函数名>,<序列名>)。注意:<序列名>参数允许多个,之间用逗号隔开。 (2).返回值 P 阅读全文
posted @ 2020-04-04 16:57 苦逼运维 阅读(166) 评论(0) 推荐(0) 编辑