股票数据定向爬虫

功能描述

目标:获取上交所和深交所所有股票的名称和交易信息
输出:保存到文件中
技术路线:requests-bs4-re
候选数据网站:
https://finance.sina.com.cn/stock/
选取原则:股票信息静态存在HTML页面中,非js代码生成,每一Robots协议限制。

程序的结构设计

步骤1:从东方财富网获取股票列表
步骤2:根据股票列表逐个到百度股票获取个股信息
步骤3:将结果存储到文件

主体框架

import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url):
    return ""

def getStockList(lst,stockURL):
    return ""

def getStockInfo(lst,stockURL,fpath):
    return ""

def main():
    stock_list_url='http://quote.eastmoney.com/stocklist.html'
    stock_info_url='https://gushitong.baidu.com/'
    output_file='D://BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)
main()
posted @ 2022-05-10 17:11  flyall  阅读(89)  评论(0)    收藏  举报