山东大学项目实训-基于LLM的中文法律文书生成系统(四)- 法律大模型&相关资源
法律场景下的大语言模型
在法律领域,相关从业人员需要参与合同咨询、审查、案件判决等日常重复性任务。这些任务需要耗费大量的人力成本,亟需面向法律领域的人工智能技术辅助完成这些工作,从而减轻从业人员的工作负担[437]。大语言模型具有优秀的模型能力,经过领域适配以后,能够助力完成多种法律任务,如合同信息抽取、法律文书撰写和案件判决生成,具有较好的应用场景。
构建法律相关的大语言模型
为了构建法律大语言模型,可以采集大量的法律相关的文本数据,进而针对通用大语言模型进行继续预训练或指令微调,使其掌握法律领域的专业知识。ChatLaw是一个面向中文的法律大语言模型,其训练数据主要来源于法条、司法解释、法考题、判决文书、法律相关论坛和新闻等。ChatLaw目前主要有两个版本,即ChatLaw(13B)和ChatLaw(33B),分别基于Ziya-LLaMA(13B)和Anima(33B)基座模型训练获得,具有较好的法律文本理解与任务处理能力。由于法律领域具有高度的专业性、且不同国家法律存在差异,在训练法律大模型时需要考虑其适用范围。例如,在中文法律场景下,需要在构造训练数据时去除不符合中国法律的相关训练数据,并且针对常见的法律案例、咨询需求等构造指令数据集,从而更准确地理解中国用户的法律需求。
CSHaitao/LexiLaw: LexiLaw - 中文法律大模型 (github.com)
数据资源
法律领域有许多可用于模型训练与评估的数据资源。其中,可用于训练法律大模型的数据资源主要包括法律法规、裁判文书等法律数据。这些数据通常可以从相关官方网站下载获得,且数据规模较大,能够为大模型提供大量的法律专业知识。进一步,还可以收集司法考试题目、法律咨询、法律问答等相关数据,此类数据涉及了真实用户的法律需求与基于法律专业知识的解答,通常可以用于指令数据的构造,进而对于模型微调。Cuad[439]是一个包含510个商业法律合同、超过13K个标注的合同审查数据集,由数十名法律专业人士和机器学习研究人员共同创建。通过法律专业人士对这些合同数据进行扩充和详细标注,可以得到高质量的法律相关指令数据,从而提升法律专用垂直大模型的微调效果。此外,上述数据也可以用来构建法律领域的评测基准,用于全面评估法律专用的大语言模型的性能。其中,司法考试题目常用于对模型进行评测,相较于传统问答数据集,司法考试题目的问答依赖于对大量专业知识的理解,以及对大量相关资料的参考结合,因此具有较高的难度与专业度,可用于法律大模型的综合能力评估。
1. 司法判决预测
中文:
-
CAIL2018
刑法
2. 通用语料
多语言:
- MultiLegalPile
- LexFiles
西班牙语:
- Spanish Legal Domain Corpora
- 原始论文:(2021) Spanish Legalese Language Model and Corpora
- 数据下载地址:Spanish Legal Domain Corpora | Zenodo
英语:
-
CaseHOLD
English Harvard Law case corpus (1965-2021)
-
Pile of Law
-
(跨国)LeXFiles and LegalLAMA
-
原始论文:(2023 ACL) LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development
-
LeXFiles是一组语料,LegalLAMA则是用以评估模型效果的benchmark(参考的是LAMA)
-
已放到transformers上:
from datasets import load_dataset dataset = load_dataset('lexlms/lex_files', name='eu-legislation') from datasets import load_dataset dataset = load_dataset('lexlms/legal_lama', name='contract_sections') 12345
-
中文:
- 华律网法律咨询数据及论文所需语料库;同时发表的论文:法律咨询文本分类系统设计与研究
The legal consultation data and corpus of the thesis from China law network.Replication Data for: Design and research of legal consultation text classification system. - Data Driven Innovation Research Competition for University of China
葡萄牙语:
3. 其他集成项目
多语言:
-
LexGLUE
coastalcph/lex-glue: LexGLUE: A Benchmark Dataset for Legal Language Understanding in English
-
LEXTREME
还没整理完的:
4. 推理
- legalbench
英语:
- SARA:大概来说就是推理某种情况是否适用于某某法律(美国税法中的9个Section)
5. NLU
- SemEval 2023 Task 6: LegalEval - Understanding Legal Texts
- 任务:Rhetorical Roles Labeling,命名实体识别,可解释的司法判决预测
- MAUD
6. NLG
1 QA
中文:
-
JEC-QA
法考数据集
- 原始论文:(2020 AAAI) JEC-QA: A Legal-Domain Question Answering Dataset
越南语
- (交通法)(2017 KSE) Question analysis for Vietnamese legal question answering
2 文本摘要
英文:
- BillSum
- VebCL(基于案例引用图实现一句话摘要/抽取重点信息)
多语言:
- EUR-Lex-Sum(24种欧洲官方语言)
原始论文:(2022 EMNLP) EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form Summarization in the Legal Domain
数据下载地址:dennlinger/eur-lex-sum · Datasets at Hugging Face - Multi-LexSum
原始论文:(2022) Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities
数据集官网:https://multilexsum.github.io/
7. 信息抽取
1 命名实体识别
葡萄牙语(巴西):
- CDJUR-BR
2 句子边界检测(分句)
多语言:
- MultiLegalSBD(英语、西班牙语、德语、意大利语、葡萄牙语、法语)
3 论据挖掘
- 英语
- 原始论文:(2023) Mining Legal Arguments in Court Decisions
- 下载地址:[trusthlt/mining-legal-arguments: Mining Legal Arguments in Court Decisions - Data and software](https://github.com/trusthlt/mining-legal-argumentsP
8. 智能合同审查
- 英语
9. 其他任务
结构化:
-
DiscoveringTheRationaleOfDecisions(用于抽取判决结果中的rationale。具体干啥的其实我还没看)
-
GENTLE(英语域外评估,包括了法律文书)
多语言:
- FairLex
总结
大语言模型对于推动法律领域的技术自动化升级有着重要应用意义。在实践中,可以通过使用法律领域数据进行预训练和指令微调,增强通用大语言模型对于法律知识的理解和利用,进而有效适配法律领域的应用任务。由于法律领域的应用场景对准确性和严谨性要求较高,实际应用中仍然需要专业人员进行核对,从而保证输出结果的专业性和可靠性。此外,法律领域还需要考虑个人隐私保护,防止模型出现隐私信息的泄露。

浙公网安备 33010602011771号