随笔分类 - python
摘要:#功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 候选数据网站: https://finance.sina.com.cn/stock/ 选取原则:股票信息静态存在HTML页面中,非js代码生成,每一Robots协议限制。 程序
阅读全文
摘要:中国大学排名定向爬虫 功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests—bs4 定向爬虫:仅对输入URL进行爬取,不扩展爬取 程序的结构设计 步骤1:从网络上获取大学排名网页内容 getHTMLText() 步骤2:提取网页内容中信
阅读全文
摘要:方法一 完整解析信息的标记形式,再提取关键信息 需要标记解析器(bs4库的标签树遍历) 优点:信息解析准确 缺点:提取过程繁琐,速度慢 方法二 无视标记形式,直接搜索关键信息 对信息的文本查找函数即可 优点:提取过程简洁,速度较快 缺点:提取结果准确性与信息内容相关 融合方法 结合形式解析与搜索方法
阅读全文
摘要:ctrl+shift+p 打开设置(json) //python code Runnder设置 "code-runner.executorMap": { "python": "set PYTHONIOENCODING=utf-8 && python" },
阅读全文

浙公网安备 33010602011771号