股票数据定向爬虫

功能描述

目标：获取上交所和深交所所有股票的名称和交易信息
输出：保存到文件中
技术路线：requests-bs4-re
候选数据网站：
https://finance.sina.com.cn/stock/
选取原则：股票信息静态存在HTML页面中，非js代码生成，每一Robots协议限制。

程序的结构设计

步骤1：从东方财富网获取股票列表
步骤2：根据股票列表逐个到百度股票获取个股信息
步骤3：将结果存储到文件

主体框架

import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url):
    return ""

def getStockList(lst,stockURL):
    return ""

def getStockInfo(lst,stockURL,fpath):
    return ""

def main():
    stock_list_url='http://quote.eastmoney.com/stocklist.html'
    stock_info_url='https://gushitong.baidu.com/'
    output_file='D://BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)
main()

posted @ 2022-05-10 17:11 flyall 阅读(111) 评论(0) 收藏举报

刷新页面返回顶部

flyall.

股票数据定向爬虫

功能描述

程序的结构设计

主体框架

公告