山东大学项目实训-基于LLM的中文法律文书生成系统（四）- 法律大模型&相关资源

法律场景下的大语言模型

在法律领域，相关从业人员需要参与合同咨询、审查、案件判决等日常重复性任务。这些任务需要耗费大量的人力成本，亟需面向法律领域的人工智能技术辅助完成这些工作，从而减轻从业人员的工作负担[437]。大语言模型具有优秀的模型能力，经过领域适配以后，能够助力完成多种法律任务，如合同信息抽取、法律文书撰写和案件判决生成，具有较好的应用场景。

构建法律相关的大语言模型

为了构建法律大语言模型，可以采集大量的法律相关的文本数据，进而针对通用大语言模型进行继续预训练或指令微调，使其掌握法律领域的专业知识。ChatLaw是一个面向中文的法律大语言模型，其训练数据主要来源于法条、司法解释、法考题、判决文书、法律相关论坛和新闻等。ChatLaw目前主要有两个版本，即ChatLaw(13B)和ChatLaw(33B)，分别基于Ziya-LLaMA(13B)和Anima(33B)基座模型训练获得，具有较好的法律文本理解与任务处理能力。由于法律领域具有高度的专业性、且不同国家法律存在差异，在训练法律大模型时需要考虑其适用范围。例如，在中文法律场景下，需要在构造训练数据时去除不符合中国法律的相关训练数据，并且针对常见的法律案例、咨询需求等构造指令数据集，从而更准确地理解中国用户的法律需求。

CSHaitao/LexiLaw: LexiLaw - 中文法律大模型 (github.com)

数据资源

法律领域有许多可用于模型训练与评估的数据资源。其中，可用于训练法律大模型的数据资源主要包括法律法规、裁判文书等法律数据。这些数据通常可以从相关官方网站下载获得，且数据规模较大，能够为大模型提供大量的法律专业知识。进一步，还可以收集司法考试题目、法律咨询、法律问答等相关数据，此类数据涉及了真实用户的法律需求与基于法律专业知识的解答，通常可以用于指令数据的构造，进而对于模型微调。Cuad[439]是一个包含510个商业法律合同、超过13K个标注的合同审查数据集，由数十名法律专业人士和机器学习研究人员共同创建。通过法律专业人士对这些合同数据进行扩充和详细标注，可以得到高质量的法律相关指令数据，从而提升法律专用垂直大模型的微调效果。此外，上述数据也可以用来构建法律领域的评测基准，用于全面评估法律专用的大语言模型的性能。其中，司法考试题目常用于对模型进行评测，相较于传统问答数据集，司法考试题目的问答依赖于对大量专业知识的理解，以及对大量相关资料的参考结合，因此具有较高的难度与专业度，可用于法律大模型的综合能力评估。

1. 司法判决预测

中文：

CAIL2018

刑法
1. 原始论文：CAIL2018: A Large-Scale Legal Dataset for Judgment Prediction
  Overview of CAIL2018: Legal Judgment Prediction Competition
2. 数据下载地址：https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip（对数据的具体介绍除上面的论文外，还可以参考：thunlp/CAIL: Chinese AI & Law Challenge）
3. 任务：（分类）预测法条、罪名、刑期

2. 通用语料

多语言：

MultiLegalPile
1. 原始论文：(2023) MultiLegalPile: A 689GB Multilingual Legal Corpus
2. 数据下载地址：https://huggingface.co/datasets/joelito/Multi_Legal_Pile
3. 项目包含的数据：
LexFiles
1. 原始论文：(2023 ACL) LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development

西班牙语：

Spanish Legal Domain Corpora
1. 原始论文：(2021) Spanish Legalese Language Model and Corpora
2. 数据下载地址：Spanish Legal Domain Corpora | Zenodo

英语：

CaseHOLD

English Harvard Law case corpus (1965-2021)
1. 原始论文：(2021 ICAIL) When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings
Pile of Law
1. 原始论文：(2022 NeurIPS) Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset
2. 数据下载地址：https://huggingface.co/datasets/pile-of-law/pile-of-law
（跨国）LeXFiles and LegalLAMA
1. 原始论文：(2023 ACL) LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development
2. LeXFiles是一组语料，LegalLAMA则是用以评估模型效果的benchmark（参考的是LAMA）
3. 已放到transformers上：
```
from datasets import load_dataset
dataset = load_dataset('lexlms/lex_files', name='eu-legislation')

from datasets import load_dataset
dataset = load_dataset('lexlms/legal_lama', name='contract_sections')
12345
```

中文：

华律网法律咨询数据及论文所需语料库；同时发表的论文：法律咨询文本分类系统设计与研究
The legal consultation data and corpus of the thesis from China law network.Replication Data for: Design and research of legal consultation text classification system. - Data Driven Innovation Research Competition for University of China

葡萄牙语：

https://github.com/alfaneo-ai/brazilian-legal-text-dataset（巴西）

3. 其他集成项目

多语言：

LexGLUE

coastalcph/lex-glue: LexGLUE: A Benchmark Dataset for Legal Language Understanding in English
1. 原始论文：(2021) LexGLUE: A Benchmark Dataset for Legal Language Understanding in English
LEXTREME
1. 原始论文：(2023) LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain
2. 数据下载地址：https://huggingface.co/datasets/joelito/lextreme

还没整理完的：

https://github.com/neelguha/legal-ml-datasets

4. 推理

legalbench
1. 原始论文：(2022) LegalBench: Prototyping a Collaborative Benchmark for Legal Reasoning
2. 数据下载地址：https://github.com/HazyResearch/legalbench

英语：

SARA：大概来说就是推理某种情况是否适用于某某法律（美国税法中的9个Section）
1. 原始论文：(2020) A Dataset for Statutory Reasoning in Tax Law Entailment and Question Answering

5. NLU

SemEval 2023 Task 6: LegalEval - Understanding Legal Texts
1. 任务：Rhetorical Roles Labeling，命名实体识别，可解释的司法判决预测
MAUD
1. 原始论文：(2023) MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement Understanding
2. 数据下载地址：https://drive.google.com/drive/folders/1RujOK2FZKdFSCJ15tqdyd42g8WLsYagj

6. NLG

1 QA

中文：

JEC-QA

法考数据集

https://jecqa.thunlp.org/
1. 原始论文：(2020 AAAI) JEC-QA: A Legal-Domain Question Answering Dataset

越南语

（交通法）(2017 KSE) Question analysis for Vietnamese legal question answering

2 文本摘要

英文：

BillSum
1. 原始论文：(2019 WS) BillSum: A Corpus for Automatic Summarization of US Legislation
2. 数据下载地址：billsum · Datasets at Hugging Face
VebCL（基于案例引用图实现一句话摘要/抽取重点信息）
1. 原始论文：(2021 CIKM) VerbCL: A Dataset of Verbatim Quotes for Highlight Extraction in Case Law
2. 数据下载地址：https://uvaauas.figshare.com/articles/dataset/VerbCL_Dataset/14798878/1

多语言：

EUR-Lex-Sum（24种欧洲官方语言）
原始论文：(2022 EMNLP) EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form Summarization in the Legal Domain
数据下载地址：dennlinger/eur-lex-sum · Datasets at Hugging Face
Multi-LexSum
原始论文：(2022) Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities
数据集官网：https://multilexsum.github.io/

7. 信息抽取

1 命名实体识别

葡萄牙语（巴西）：

CDJUR-BR
1. 原始论文：(2023) CDJUR-BR – A Golden Collection of Legal Document from Brazilian Justice with Fine-Grained Named Entities

2 句子边界检测（分句）

多语言：

MultiLegalSBD（英语、西班牙语、德语、意大利语、葡萄牙语、法语）
1. 原始论文：(2023 ICAIL) MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset
2. 数据下载地址：https://huggingface.co/datasets/rcds/MultiLegalSBD

3 论据挖掘

英语
1. 原始论文：(2023) Mining Legal Arguments in Court Decisions
2. 下载地址：[trusthlt/mining-legal-arguments: Mining Legal Arguments in Court Decisions - Data and software](https://github.com/trusthlt/mining-legal-argumentsP

8. 智能合同审查

英语
1. (2021 NeurIPS) CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review
  https://github.com/TheAtticusProject/cuad
  https://huggingface.co/datasets/theatticusproject/cuad-qa

9. 其他任务

结构化：

DiscoveringTheRationaleOfDecisions（用于抽取判决结果中的rationale。具体干啥的其实我还没看）
1. 原始论文：(2021 ICAIL) Discovering the Rationale of Decisions: Experiments on Aligning Learning and Reasoning
2. 数据下载地址见官方GitHub项目：CorSteging/DiscoveringTheRationaleOfDecisions: Discovering the Rationale of Decisions
GENTLE（英语域外评估，包括了法律文书）
1. 原始论文：(2023 ACL) GENTLE: A Genre-Diverse Multilayer Challenge Set for English NLP and Linguistic Evaluation
2. 下载地址：gucorpling/gentle: Repository for the GENTLE corpus

多语言：

FairLex
1. 原始论文：(2022 ACL) FairLex: A Multilingual Benchmark for Evaluating Fairness in Legal Text Processing
2. 数据下载地址：coastalcph/fairlex · Datasets at Hugging Face

总结

大语言模型对于推动法律领域的技术自动化升级有着重要应用意义。在实践中，可以通过使用法律领域数据进行预训练和指令微调，增强通用大语言模型对于法律知识的理解和利用，进而有效适配法律领域的应用任务。由于法律领域的应用场景对准确性和严谨性要求较高，实际应用中仍然需要专业人员进行核对，从而保证输出结果的专业性和可靠性。此外，法律领域还需要考虑个人隐私保护，防止模型出现隐私信息的泄露。

posted @ 2024-05-31 00:35 H1S96 阅读(404) 评论(0) 收藏举报

刷新页面返回顶部

h1s97x

山东大学项目实训-基于LLM的中文法律文书生成系统（四）- 法律大模型&相关资源

法律场景下的大语言模型

构建法律相关的大语言模型

数据资源

1. 司法判决预测

2. 通用语料

3. 其他集成项目

4. 推理

5. NLU

6. NLG

1 QA

2 文本摘要

7. 信息抽取

1 命名实体识别

2 句子边界检测（分句）

3 论据挖掘

8. 智能合同审查

9. 其他任务

总结

公告