文章分类 - Python
摘要:python3 中的reload(sys)和sys.setdefaultencoding('utf-8') 通常我们为了防止出现乱码会进行一下操作 import sys reload(sys) sys.setdefaultencoding(‘utf-8’) 但这是python2的写法,但是在pyth
阅读全文
摘要:Python encode()和decode()方法:字符串编码转换 Python 3.x 默认采用 UTF-8 编码格式,有效地解决了中文乱码的问题。 Python encode()方法 encode() 方法为字符串类型(str)提供的方法,用于将 str 类型转换成 bytes 类型,这个过程
阅读全文
摘要:python https://docs.python.org/3/ Apache Kudu https://kudu.apache.org/docs/ Apache impala https://impala.apache.org/impala-docs.html
阅读全文
摘要:Python 可视化工具 pyecharts -- 官网 pyecharts - A Python Echarts Plotting Library built with love. pyecharts 其实有两个东西 py -- Python 和 echarts -- 百度开源的前端js的一个库,
阅读全文
摘要:Scrapy 使用时出现的问题及解决 Scrapy | A Fast and Powerful Scraping and Web Crawling Framework -- Scrapy 官网 将来如果使用到 Scrapy 可以回去看视频 或者 去看官网的使用文档 缺少网站"君子协议"的文件 假如通
阅读全文
摘要:Settings Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core),插件(extension),pipeline及spider组件。比如 设置Json Pipeliine、LOG_LEVEL等。 参考文档:http://scrapy-chs.read
阅读全文
摘要:通常防止爬虫被反主要有以下几个策略: 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) 禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为) 可以通过COOKIES
阅读全文
摘要:Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline
阅读全文
摘要:Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端
阅读全文
摘要:Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 Scrapy架构图(绿线是数据流向) S
阅读全文
摘要:Python 爬虫 什么是爬虫? 首先我们要了解,对于一个网站是有一个链接的。我们访问一个网站除了使用浏览器之外,还可以在 Linux 中使用 curl 命令访问 # 例如:访问百度 curl https://www.baidu.com/ 会返回一个HTML的文件(网页的源码) HTML -- 超文
阅读全文
摘要:Python Pandas 数据分析 Pandas 的底层也是 Numpy 实现的 Python科学计算生态圈 Python在科学计算方面有很多不断改良的库,结合其在通用编程方面的强大实力, 使其在数据处理、交互探索性计算以及数据可视化方面深受广大编程者的喜爱 Python有着一个强大的科学计算生态
阅读全文
摘要:Python Jupyter Notebook 之前我们学习 Python 的时候,代码都是在 PyCharm 或者是 IDEA 中运行的,每当代码写到后面的时候, 运行代码都会把前面的代码执行一遍,很不方便。 Jupyter Notebook :就是一个脱离了 PyCharm 或者是 IDEA 可
阅读全文
摘要:Python 异常处理 错误类型 语法错误(Syntax errors) 代码编译时的错误,不符合Python语言规则的代码会停止编译并返回错误信息 异常(Exceptions) 相较于语法错误,异常比较难发现,因为它只在代码运行时才会发生, 如类型错误、数值错误、索引错误和属性错误等。 语法错误包
阅读全文
摘要:Python 类和模块 这里的模块就是包的意思 模块介绍 内置电池(batteries included) -- 可以直接用 基础代码库,覆盖了网络通信、文件处理、数据库接口、图形系统、XML处理 第三方工具包 -- 需要安装才能用 • Pandas:数据处理与分析 • Numpy:科学计算 • S
阅读全文

浙公网安备 33010602011771号