Github 1.1K star,一款能看懂表格、建模型、自动出报告的神器,彻底解放你的双手!

项目背景

做数据分析的人,应该都经历过这样的时刻:Excel 打开崩溃、SQL 语句卡半天、模型调参像猜谜、报告一写就是半天……
如果你不是专业的数据科学家,面对一堆表格、CSV、代码、图表,更是头大。
过去我们有 ChatGPT,它能写文案、生成代码;但它还不能真正理解数据,不会自动清洗表格、不会建立模型、不会生成带图表的报告。
现在,中国人民大学的数据工程实验室(RUC Datalab)团队做了一件很酷的事:他们开源了一个项目,叫 DeepAnalyze。
这个项目想让 AI 变成一个真正的数据科学家,能看懂数据、能建模、能总结,还能自动生成一份漂亮的分析报告。
一句话概括:你只需要提供数据,剩下的事情交给 DeepAnalyze。

image.png

DeepAnalyze是什么?

DeepAnalyze 目前开源了模型、代码与训练数据,支持包括结构化(CSV、Excel)、半结构化(JSON、YAML)、非结构化(TXT、Markdown)等多种数据类型。 它能从数据到报告进行完整推理,甚至能在报告中呈现推理链条(Reasoning Trace),帮助用户理解 AI 是如何得出结论的。

核心亮点

  • 自主推理与任务规划:DeepAnalyze 内置 Agent 框架,能像人类分析师一样规划任务、调用工具、检查结果、修正分析。
  • 多模态数据输入:不仅支持表格,还能理解 JSON、文本文档等多种数据格式,实现跨源分析。
  • 自动化分析报告生成:生成的报告内容包括数据摘要、建模思路、图表可视化和结论总结。
  • 完全开源可训练:用户可在本地自定义训练模型,支持从头微调或基于已有权重二次开发。
  • 可解释性强:DeepAnalyze 输出的不只是结果,还包括完整的“思考路径”(reasoning process)。

image.png

快速上手

环境准备
# 克隆仓库 
git clone https://github.com/ruc-datalab/DeepAnalyze.git cd DeepAnalyze 
# 安装依赖 
pip install torch==2.6.0 transformers==4.53.2 vllm==0.8.5
启动演示界面
cd demo/chat 
npm install 
bash start.sh

浏览器访问 http://localhost:4000,即可进入交互式 AI 数据科学界面。

Python 调用示例
from deepanalyze import DeepAnalyzeVLLM
 
prompt = """# Instruction
Generate a data science report.
# Data
File 1: {"name": "student_loan.xlsx"}"""
 
workspace = "/example/student_loan/"
deepanalyze = DeepAnalyzeVLLM("/checkpoints/deepanalyze-8b/")
result = deepanalyze.generate(prompt, workspace=workspace)
 
print(result["reasoning"])
 

几行代码即可让模型自动读取数据、执行分析并生成报告。

开放 API 与二次开发

对于开发者和科研人员,DeepAnalyze 提供了清晰的 API 接口:

from deepanalyze import DeepAnalyzeVLLM
 
deepanalyze = DeepAnalyzeVLLM("path/to/checkpoints")
response = deepanalyze.generate(
    prompt="Analyze patient medical data and summarize insights.",
    workspace="/data/medical/"
)
print(response["report"])
 

技术原理与架构设计

DeepAnalyze 的底层设计可以概括为“三层智能架构”:

  • Agentic Framework
    核心思想是让 LLM 拥有“自我规划”与“行动执行”的能力。 模型在接收任务后会自动分解成子任务(如数据清洗、建模、绘图、总结),并依次完成。
  • DeepAnalyze-8B 模型
    基于 80 亿参数的自研大模型,在数据科学任务上进行专门微调,优化其表格理解与统计推理能力。
  • Curriculum-based Training
    采用“课程式”分阶段训练,从简单的数据描述任务逐步过渡到复杂的数据分析和报告生成,让模型具备稳定的任务执行能力。

总结

在 AI 写代码、写文案已经不稀奇的今天,DeepAnalyze 迈出了更具想象力的一步,它让 AI 不止会“说”,还会“分析”,能真正理解数据、建模、推理、汇报结果。也许现在的 DeepAnalyze 还不完美,但它展示了一个清晰的方向:未来,数据分析不再是少数人的特权,而会成为每个人都能触及的智能能力。当 AI 能替我们完成繁琐的统计和建模,我们就能把更多时间,花在“思考问题”和“做决策”上。

项目地址

项目地址点击下方原文链接:

🚀原文地址https://gegeblog.top/article/33

posted @ 2025-11-06 19:32  半页の时光  阅读(0)  评论(0)    收藏  举报  来源