中国马拉松官方网站赛历信息采集工具
一、完善后具体需求
1. 核心目标
面向跑者、赛事运营、数据分析、媒体、跑团管理等场景,合规批量采集中国马拉松官网(runchina.org.cn,中国田径协会官方)全量赛历元数据,解决手动查赛、抄信息、整理日历、筛选赛事效率低、易漏错、数据不统一的痛点,实现 “一键检索、全量采集、多格式导出、实时更新”,适配赛事报名规划、跑团排期、数据统计、媒体报道全流程国家体育总局。
2. 核心采集来源(唯一权威,合规优先)
- 主站:中国马拉松官方网站(https://www.runchina.org.cn/)(中国田径协会运营,唯一官方赛历入口)
- 核心页面:赛事日历页、赛事详情页、已办 / 待办赛事列表、A/B/C 类认证赛事专区、世界田联标牌赛事专区国家体育总局
- 补充来源:官网公告栏(赛事延期、取消、变更通知)
3. 检索与筛选功能(精准匹配跑者 / 运营需求)
基础检索
- 支持 ** 赛事名称、城市、赛事等级(A/B/C)、世界田联标牌(白金 / 金 / 银 / 铜)、项目类型(全马 / 半马 / 10K/5K / 越野)** 精准搜索
- 支持模糊匹配、拼音检索、日期范围(年 / 月 / 季度)、关键词组合检索
高级筛选(多条件组合,覆盖全场景)
- 赛事认证:A 类(田协认证最高级)、B 类、C 类、非认证、世界田联标牌(白金 / 金 / 银 / 铜)国家体育总局
- 时间状态:待办(未开赛)、进行中、已完赛、延期、取消、待定
- 地域筛选:按省份 / 城市、热门跑圈(长三角 / 珠三角 / 京津冀)筛选
- 项目类型:全程马拉松、半程马拉松、10 公里、5 公里、迷你跑、越野跑、接力赛
- 报名状态:报名中、即将报名、报名截止、未开放报名
- 特色标签:田协锦标赛、冠军赛、金牌赛事、银牌赛事、铜牌赛事、特色赛事、女子马拉松、亲子跑
- 规模筛选:参赛规模(5000 人以下 / 5000-10000 人 / 10000 人以上)
结果排序与浏览
- 排序:按开赛日期、赛事等级、城市、报名热度、参赛规模排序
- 分页:自定义单页条数(20/50/100 条)、批量全选 / 勾选采集、分页自动翻页
4. 全量采集字段(覆盖赛历核心,无遗漏)
表格
| 字段分类 | 必采核心字段 | 补充扩展字段 |
|---|---|---|
| 赛事基础 | 赛事全称、简称、赛事 ID(唯一标识)、官方详情页链接、赛事状态(待办 / 已办 / 延期 / 取消) | 赛事别名、英文名称、赛事年份、届数 |
| 时间信息 | 开赛日期(精确到日)、报名开始时间、报名截止时间、抽签结果公布时间 | 报到时间、起跑时间、关门时间、赛事周期(单日 / 多日) |
| 地域信息 | 举办城市、详细地址、赛道起点 / 终点 | 城市经纬度(GIS 分析用)、赛区、赛道类型(公路 / 山地 / 环湖) |
| 认证等级 | 田协认证等级(A/B/C)、世界田联标牌(白金 / 金 / 银 / 铜)、金银铜牌赛事 | 认证编号、认证有效期、赛事类别(锦标赛 / 冠军赛 / 普通) |
| 项目与规模 | 项目列表(全马 / 半马 / 10K 等)、各项目参赛限额、总参赛规模 | 各项目报名费、团报价格、精英选手通道、公益名额 |
| 报名与官网 | 报名入口链接、官方公众号、官方网站、报名方式(先报先得 / 抽签) | 报名须知链接、参赛要求、年龄限制、健康要求 |
| 运营信息 | 主办单位、承办单位、运营方、技术认证单位 | 赛道丈量员、计时服务商、赛事官网备案号 |
| 数据辅助 | 采集时间、数据来源、更新时间、去重标识 | 赛事亮点、特色补给、奖牌 / 完赛服信息、媒体合作 |
5. 导出功能(多格式适配,直接可用)
支持导出格式
- Excel/CSV(跑团 / 运营首选)、iCal(日历导入,苹果 / 安卓 / Outlook 通用)、JSON(数据分析 / 二次开发)、TXT(极简清单)、BibTeX(学术引用)
导出规则
- 字段完整:包含全量字段,日期统一格式(YYYY-MM-DD)、链接可直接访问、无乱码(UTF-8)
- 批量导出:单任务支持≥1000 条赛事批量导出,自动拆分大文件、命名规范(如「2026 年全国马拉松赛历_20260331_1200 条.xlsx」)
- 自定义导出:勾选所需字段、调整列顺序、按城市 / 等级 / 时间分组导出、隐藏冗余字段
- 数据清洗:自动去重(按赛事 ID + 开赛日期)、统一日期格式、清理特殊符号、标记延期 / 取消赛事
- 附加功能:导出前预览、字段缺失校验、导出日志、iCal 日历一键导入(支持手机 / 电脑日历同步)
6. 批量与效率能力(适配大规模采集 / 更新)
- 批量采集:支持按年份 / 季度 / 城市 / 等级全量爬取、多页自动翻页、导入城市 / 赛事清单批量查询
- 断点续采:网络中断 / 程序关闭后,从断点恢复采集,无需重新开始;支持手动暂停 / 继续、单条重试
- 进度可视化:实时显示采集条数、成功 / 失败数、剩余时间、当前采集赛事;失败项标注原因(页面加载失败、无数据)
- 增量更新:支持仅采集新增 / 变更赛事(延期、取消、报名状态更新),无需全量重采,提升效率
- 自动去重:采集过程中实时按「赛事 ID + 开赛日期」去重,避免重复存储
7. 合规与稳定性(核心底线,防封禁、保安全)
- 合规原则:仅采集官网公开赛历元数据,不破解、不爬取非公开数据、不高频请求、不恶意爬虫;严格遵循官网 robots 协议、《网络安全法》,仅限个人 / 企业合规自用(跑团排期、数据分析、媒体整理)
- 访问控制:内置请求间隔(3-5 秒 / 次)、随机 UA、请求头模拟浏览器;异常自动重试(3 次)、IP 封禁规避;无需登录账号(公开数据免登)
- 数据安全:本地运行、数据本地存储,不上传第三方服务器;无账号泄露、无数据滥用风险
- 适配更新:针对官网页面结构 / 接口变更,支持配置化快速适配,保障长期可用
8. 易用性与辅助功能(降低门槛,开箱即用)
- 操作模式:** 图形化界面(新手友好)+ 命令行(批量自动化)** 双模式,适配 Windows/macOS
- 新手引导:内置使用教程、字段说明、iCal 导入步骤、合规提示、常见问题
- 数据管理:本地历史任务保存、数据备份 / 恢复、旧数据对比更新、批量删除冗余数据
- 错误处理:采集失败自动标记、原因提示、支持单条重新采集;延期 / 取消赛事高亮提醒
- 实用工具:赛事日历一键导入手机 / 电脑、按城市 / 时间生成跑者参赛计划、赛事状态变更提醒
9. 边界与约束(明确范围,规避风险)
- 仅采集官网公开的赛历元数据,不提供报名代报、缴费、成绩查询、证书下载、赛事报名入口破解服务
- 数据来源仅限中国马拉松官网,不整合第三方非官方赛事数据,保证权威性
- 禁止商用、恶意高频采集、数据倒卖;仅限个人跑者、跑团、赛事运营、媒体合规自用
- 不采集官网未公开的内部数据、选手隐私信息、非公开赛事
二、需求分析(博客园配套深度拆解,贴合用户痛点)
1. 业务背景与核心痛点
- 痛点 1:查赛繁琐 —— 跑者 / 跑团需逐个翻页、跨月筛选,手动记录赛事时间、城市、等级,易漏错
- 痛点 2:整理低效 —— 批量整理年度赛历、制作跑团排期表,手动复制粘贴耗时久,数据不统一
- 痛点 3:状态混乱 —— 赛事常延期、取消、报名截止,手动跟踪不及时,错过报名 / 参赛
- 痛点 4:导出不便 —— 官网无批量导出、格式单一,无法直接导入日历(iCal)、Excel 做 BOM / 排期
- 痛点 5:数据分散 ——A/B/C 类、标牌赛事分专区,需多页切换,无法一次性获取全量数据国家体育总局
2. 用户画像(核心使用人群)
- 大众跑者:规划年度参赛计划、筛选目标赛事、跟踪报名时间、导入手机日历
- 跑团负责人:批量整理团报赛事、制作跑团年度排期、通知团员报名
- 赛事运营 / 媒体:统计赛事分布、分析区域热度、整理年度赛历、报道素材
- 数据分析人员:获取全量赛历数据、做地域 / 时间 / 等级分布统计、GIS 可视化分析
- 自媒体 / 博主:快速生成赛事日历、整理热门赛事清单、输出跑者攻略
3. 核心需求拆解(从 “要工具” 到 “解决实际问题”)
- 基础需求:快速查、精准筛—— 多条件组合检索,一键定位目标赛事,告别手动翻页
- 核心需求:全量采、批量导—— 完整采集赛事时间、地点、等级、报名信息,导出 Excel/iCal 直接用
- 效率需求:自动化、省时间—— 批量采集、断点续采、增量更新,1000 条赛事从 1 天缩至 10 分钟
- 实用需求:可同步、易管理——iCal 格式直接导入手机 / 电脑日历,实时跟踪赛事状态
- 安全需求:合规采、不踩坑—— 低频请求、本地存储、免登录,无封禁 / 法律风险
4. 功能模块拆解(清晰易懂,体现专业性)
- 检索模块:封装官网赛历检索接口,支持多条件组合,生成合规请求,返回赛事列表
- 采集模块:解析列表页 + 详情页,抽取全量字段,清洗格式化(日期、链接、等级)
- 批量模块:分页控制、断点续采、增量更新、自动去重、进度统计、失败重试
- 导出模块:字段映射、格式转换(Excel/CSV/iCal/JSON)、iCal 日历生成、文件命名
- 合规模块:请求限流、UA 伪装、异常处理、合规提示、防封禁机制
- 界面模块:图形化交互、参数配置、结果预览、历史记录、错误提示
5. 数据流向(透明无中间环节,保障安全)
用户输入检索条件 → 合规请求中国马拉松官网 → 爬取赛历列表 / 赛事详情 → 字段抽取 + 清洗去重 → 本地存储 → 格式转换 → 导出文件(本地保存 / 日历导入)
6. 价值与收益(直击痛点,凸显工具实用性)
- 效率飙升:年度赛历整理从 “手动 1 天”→“自动 10 分钟”,节省 90% 时间
- 精准无误:官方权威数据,赛事状态、时间、等级无错漏,避免错过报名 / 参赛
- 便捷同步:iCal 格式一键导入手机 / 电脑日历,自动提醒,无需手动记录
- 管理高效:跑团 / 运营可批量排期、分组导出,统一管理赛事信息
- 合规安全:本地运行、公开数据、低频采集,无账号封禁、数据泄露风险

浙公网安备 33010602011771号