股票数据定向爬虫
功能描述
目标:获取上交所和深交所所有股票的名称和交易信息
输出:保存到文件中
技术路线:requests-bs4-re
候选数据网站:
https://finance.sina.com.cn/stock/
选取原则:股票信息静态存在HTML页面中,非js代码生成,每一Robots协议限制。
程序的结构设计
步骤1:从东方财富网获取股票列表
步骤2:根据股票列表逐个到百度股票获取个股信息
步骤3:将结果存储到文件
主体框架
import requests
from bs4 import BeautifulSoup
import traceback
import re
def getHTMLText(url):
return ""
def getStockList(lst,stockURL):
return ""
def getStockInfo(lst,stockURL,fpath):
return ""
def main():
stock_list_url='http://quote.eastmoney.com/stocklist.html'
stock_info_url='https://gushitong.baidu.com/'
output_file='D://BaiduStockInfo.txt'
slist=[]
getStockList(slist, stock_list_url)
getStockInfo(slist, stock_info_url, output_file)
main()