2019年7月13日

re正则表达四

摘要: 1、定义: 用来简洁表达一组字符串的表达式。 通用的字符串表达框架。 针对字符串表达简洁和特征思想的工具。 判断某字符串的特征归属。 2、作用 表达文本类型的特征(病毒,入侵等) 同时查找或替换一组字符串 匹配字符串的全部或部分。 3、使用 编译:将符合正则表达式语法的字符串转换成正则表达式特征。 阅读全文

posted @ 2019-07-13 20:56 喜欢世界的宇宙 阅读(191) 评论(0) 推荐(0)

2019年7月12日

python学习05之数据可视化

摘要: 1、加载和检查数据 经过前几次的学习,现在简单的代码就不注释了 加载数据: 检查数据: 2、散点图 散点图的创建只需要一行代码就可以解决: 代码解析: 我们使用sns.scatterplot()创建一个简单的散点图,首先我们要确认X轴的列名和Y轴的列名,比如这里的 例如,为了了解吸烟是如何影响BMI 阅读全文

posted @ 2019-07-12 21:18 喜欢世界的宇宙 阅读(473) 评论(1) 推荐(0)

python学习04之柱形图和热图

摘要: 1、加载数据 和折线图一样,我们首先都要将csv文件中的数据加载出来(代码是来自kaggle微教程中的) 你们可能会注意到,代码比我们在折线图中使用的代码略短。因为在本例中,由于行标签(来自“Month”列)不与日期对应,所以我们不在括号中添加parse_dates=True。 但是,我们像以前一样 阅读全文

posted @ 2019-07-12 20:15 喜欢世界的宇宙 阅读(634) 评论(0) 推荐(0)

python学习03之线图表

摘要: 1.加载数据(这里的文件是我本人随便找的一个文件) 2.检查数据 3.图的数据(画不出折线图) 创建折线图以及读取文件中的数据 代码解析: sns.lineplot()是告诉笔记本要创建一个折线图,data=spotify_data是将文件中的数据传输给折线图 我们也可以对折线图增加一点细节的改动, 阅读全文

posted @ 2019-07-12 19:52 喜欢世界的宇宙 阅读(396) 评论(0) 推荐(0)

2019年7月7日

python的学习02之数据处理

摘要: 1、选择建模数据 我们的数据集有太多的变量,很难处理,我们需要将这些海量的数据减少到我们能理解的程度。 我们肯定要选择变量的一列来进行分析,故我们需要查看数据集中所有列的列表名,这是通过数据框架的Columns属性完成的。 以之前的墨尔本房价为例 输出结果为: 2、选择数据子集的两种方法 1)、点表 阅读全文

posted @ 2019-07-07 22:01 喜欢世界的宇宙 阅读(233) 评论(0) 推荐(0)

2019年7月6日

python的学习01之csv文件处理

摘要: 1、pandas的说明 pandas最重要的部分是DataFrame。DataFrame类似于Excel中的工作表或SQL数据库中的表。 pandas有强大的方法来处理大多数你想用这种数据做的事情。 例如,我们将查看澳大利亚墨尔本的房价数据。在实践练习中,您将对一个新的数据集应用相同的过程,该数据集 阅读全文

posted @ 2019-07-06 17:29 喜欢世界的宇宙 阅读(503) 评论(0) 推荐(0)

2019年7月3日

中国大学排名实例

摘要: 1、功能描述: 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests-bs4 定向爬虫:因为它仅对输入URL进行爬取,不扩展爬取。 2、程序的结构设计: 步骤一:从网络上获取大学排名网页内容,getHTMLText() 步骤二:提取网页内容中信息 阅读全文

posted @ 2019-07-03 21:37 喜欢世界的宇宙 阅读(202) 评论(0) 推荐(0)

2019年7月1日

基于bs4库的HTML内容查找方法

摘要: 1、<>,find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型,存储查找的结果 name:对标签名称的检索字符串。 attrs:对标签属性值得检索字符串,可标注属性检索。 recursive:是否对子孙全部检索,默认True string:< 阅读全文

posted @ 2019-07-01 21:27 喜欢世界的宇宙 阅读(1167) 评论(0) 推荐(0)

2019年6月30日

信息标记的三种方式、比较及其提取方式

摘要: 1、信息的标记 标记后的信息可形成信息组织结构,增加了信息维度 标记后的信息可用于通信、存储或展示 标记后的结构与信息一样具有重要价值 标记后的信息更利于程序理解和运用 2、HTML的信息标记 HTML是www的信息组织方式。 HTML是通过预定义的<>....</>标签形式组织不同类型的信息 3、 阅读全文

posted @ 2019-06-30 22:07 喜欢世界的宇宙 阅读(948) 评论(0) 推荐(0)

基于bs4库的HTML内容遍历方法

摘要: 1、HTML基本格式(树形结构) 2、标签树的下行遍历 遍历儿子节点: 遍历子孙节点 3、标签树的上行遍历(soup的父节点是空的) 4、标签树的平行遍历 标签树的平行遍历条件: 是发生在同一个父节点下的各节点之间 遍历后续节点: 遍历前续节点: 阅读全文

posted @ 2019-06-30 17:02 喜欢世界的宇宙 阅读(853) 评论(0) 推荐(0)

导航