文章分类 -  Python

摘要:python3 中的reload(sys)和sys.setdefaultencoding('utf-8') 通常我们为了防止出现乱码会进行一下操作 import sys reload(sys) sys.setdefaultencoding(‘utf-8’) 但这是python2的写法,但是在pyth 阅读全文
posted @ 2022-08-31 16:11 赤兔胭脂小吕布 阅读(1390) 评论(0) 推荐(0)
摘要:Python encode()和decode()方法:字符串编码转换 Python 3.x 默认采用 UTF-8 编码格式,有效地解决了中文乱码的问题。 Python encode()方法 encode() 方法为字符串类型(str)提供的方法,用于将 str 类型转换成 bytes 类型,这个过程 阅读全文
posted @ 2022-08-31 16:05 赤兔胭脂小吕布 阅读(236) 评论(0) 推荐(0)
摘要:常用正则表达式 阅读全文
posted @ 2022-06-09 10:03 赤兔胭脂小吕布 阅读(6) 评论(0) 推荐(0)
摘要:python https://docs.python.org/3/ Apache Kudu https://kudu.apache.org/docs/ Apache impala https://impala.apache.org/impala-docs.html 阅读全文
posted @ 2022-06-07 15:46 赤兔胭脂小吕布 阅读(119) 评论(0) 推荐(0)
摘要:Python 可视化工具 pyecharts -- 官网 pyecharts - A Python Echarts Plotting Library built with love. pyecharts 其实有两个东西 py -- Python 和 echarts -- 百度开源的前端js的一个库, 阅读全文
posted @ 2022-04-01 21:32 赤兔胭脂小吕布 阅读(24) 评论(0) 推荐(0)
摘要:Scrapy 使用时出现的问题及解决 Scrapy | A Fast and Powerful Scraping and Web Crawling Framework -- Scrapy 官网 将来如果使用到 Scrapy 可以回去看视频 或者 去看官网的使用文档 缺少网站"君子协议"的文件 假如通 阅读全文
posted @ 2022-04-01 17:16 赤兔胭脂小吕布 阅读(289) 评论(0) 推荐(0)
摘要:Settings Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core),插件(extension),pipeline及spider组件。比如 设置Json Pipeliine、LOG_LEVEL等。 参考文档:http://scrapy-chs.read 阅读全文
posted @ 2022-03-31 21:57 赤兔胭脂小吕布 阅读(51) 评论(0) 推荐(0)
摘要:通常防止爬虫被反主要有以下几个策略: 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) 禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为) 可以通过COOKIES 阅读全文
posted @ 2022-03-31 21:45 赤兔胭脂小吕布 阅读(216) 评论(0) 推荐(0)
摘要:Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline 阅读全文
posted @ 2022-03-31 21:31 赤兔胭脂小吕布 阅读(20) 评论(0) 推荐(0)
摘要:Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端 阅读全文
posted @ 2022-03-31 21:27 赤兔胭脂小吕布 阅读(54) 评论(0) 推荐(0)
摘要:Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 Scrapy架构图(绿线是数据流向) S 阅读全文
posted @ 2022-03-31 19:59 赤兔胭脂小吕布 阅读(118) 评论(0) 推荐(0)
摘要:Python 爬虫 什么是爬虫? 首先我们要了解,对于一个网站是有一个链接的。我们访问一个网站除了使用浏览器之外,还可以在 Linux 中使用 curl 命令访问 # 例如:访问百度 curl https://www.baidu.com/ 会返回一个HTML的文件(网页的源码) HTML -- 超文 阅读全文
posted @ 2022-03-30 22:31 赤兔胭脂小吕布 阅读(1235) 评论(0) 推荐(0)
摘要:Python Pandas 数据分析 Pandas 的底层也是 Numpy 实现的 Python科学计算生态圈 Python在科学计算方面有很多不断改良的库,结合其在通用编程方面的强大实力, 使其在数据处理、交互探索性计算以及数据可视化方面深受广大编程者的喜爱 Python有着一个强大的科学计算生态 阅读全文
posted @ 2022-03-30 20:01 赤兔胭脂小吕布 阅读(179) 评论(0) 推荐(0)
摘要:Python Jupyter Notebook 之前我们学习 Python 的时候,代码都是在 PyCharm 或者是 IDEA 中运行的,每当代码写到后面的时候, 运行代码都会把前面的代码执行一遍,很不方便。 Jupyter Notebook :就是一个脱离了 PyCharm 或者是 IDEA 可 阅读全文
posted @ 2022-03-30 16:40 赤兔胭脂小吕布 阅读(108) 评论(0) 推荐(0)
摘要:Python 异常处理 错误类型 语法错误(Syntax errors) 代码编译时的错误,不符合Python语言规则的代码会停止编译并返回错误信息 异常(Exceptions) 相较于语法错误,异常比较难发现,因为它只在代码运行时才会发生, 如类型错误、数值错误、索引错误和属性错误等。 语法错误包 阅读全文
posted @ 2022-03-30 10:13 赤兔胭脂小吕布 阅读(183) 评论(0) 推荐(0)
摘要:Python 类和模块 这里的模块就是包的意思 模块介绍 内置电池(batteries included) -- 可以直接用 基础代码库,覆盖了网络通信、文件处理、数据库接口、图形系统、XML处理 第三方工具包 -- 需要安装才能用 • Pandas:数据处理与分析 • Numpy:科学计算 • S 阅读全文
posted @ 2022-03-29 22:21 赤兔胭脂小吕布 阅读(171) 评论(0) 推荐(0)