随笔分类 -  python

摘要:#功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 候选数据网站: https://finance.sina.com.cn/stock/ 选取原则:股票信息静态存在HTML页面中,非js代码生成,每一Robots协议限制。 程序 阅读全文
posted @ 2022-05-10 17:11 flyall 阅读(89) 评论(0) 推荐(0)
摘要:re库主要功能函数 re库的等价用法 阅读全文
posted @ 2022-05-10 13:44 flyall 阅读(34) 评论(0) 推荐(0)
摘要:中国大学排名定向爬虫 功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests—bs4 定向爬虫:仅对输入URL进行爬取,不扩展爬取 程序的结构设计 步骤1:从网络上获取大学排名网页内容 getHTMLText() 步骤2:提取网页内容中信 阅读全文
posted @ 2022-05-10 12:24 flyall 阅读(120) 评论(0) 推荐(0)
摘要:方法一 完整解析信息的标记形式,再提取关键信息 需要标记解析器(bs4库的标签树遍历) 优点:信息解析准确 缺点:提取过程繁琐,速度慢 方法二 无视标记形式,直接搜索关键信息 对信息的文本查找函数即可 优点:提取过程简洁,速度较快 缺点:提取结果准确性与信息内容相关 融合方法 结合形式解析与搜索方法 阅读全文
posted @ 2022-05-10 10:52 flyall 阅读(423) 评论(0) 推荐(0)
摘要:ctrl+shift+p 打开设置(json) //python code Runnder设置 "code-runner.executorMap": { "python": "set PYTHONIOENCODING=utf-8 && python" }, 阅读全文
posted @ 2022-01-19 19:37 flyall 阅读(117) 评论(2) 推荐(1)