摘要: #功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 候选数据网站: https://finance.sina.com.cn/stock/ 选取原则:股票信息静态存在HTML页面中,非js代码生成,每一Robots协议限制。 程序 阅读全文
posted @ 2022-05-10 17:11 flyall 阅读(89) 评论(0) 推荐(0)
摘要: re库主要功能函数 re库的等价用法 阅读全文
posted @ 2022-05-10 13:44 flyall 阅读(33) 评论(0) 推荐(0)
摘要: regular expression regex RE 正则表达式是用来简洁表达一组字符串的表达式。 经典正则表达式 ip地址字符串形式的正则表达式 阅读全文
posted @ 2022-05-10 13:31 flyall 阅读(20) 评论(0) 推荐(0)
摘要: 中国大学排名定向爬虫 功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests—bs4 定向爬虫:仅对输入URL进行爬取,不扩展爬取 程序的结构设计 步骤1:从网络上获取大学排名网页内容 getHTMLText() 步骤2:提取网页内容中信 阅读全文
posted @ 2022-05-10 12:24 flyall 阅读(118) 评论(0) 推荐(0)
摘要: 方法一 完整解析信息的标记形式,再提取关键信息 需要标记解析器(bs4库的标签树遍历) 优点:信息解析准确 缺点:提取过程繁琐,速度慢 方法二 无视标记形式,直接搜索关键信息 对信息的文本查找函数即可 优点:提取过程简洁,速度较快 缺点:提取结果准确性与信息内容相关 融合方法 结合形式解析与搜索方法 阅读全文
posted @ 2022-05-10 10:52 flyall 阅读(422) 评论(0) 推荐(0)
摘要: XML 最早的通用信息标记语言,可扩展性好,但繁琐 Internet上的信息交互与传递 JSON 信息有类型,适合程序处理(js),较XML简洁 移动应用云端和节点的信息通信,无注释 YAML 信息无类型,文本信息比例最高,可读性好 各类系统的配置文件,有注释易读 阅读全文
posted @ 2022-05-10 10:43 flyall 阅读(36) 评论(0) 推荐(0)