# 司法裁判大数据信息抽取

**Repository Path**: ma_baosen/information_extration_big_data

## Basic Information

- **Project Name**: 司法裁判大数据信息抽取
- **Description**: 以原始的裁判文书为输入，利用正则表达式、CRF 等构造文本解析模型，从被告人信息、犯罪事实信息、判决结果信息三个维度抽取出 40+相关字段并结构化到数据库中
- **Primary Language**: Unknown
- **License**: MulanPSL-1.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 14
- **Forks**: 6
- **Created**: 2020-08-18
- **Last Updated**: 2025-08-10

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 裁判文书信息提取

#### 介绍
研究并建设了国内首个司法裁判文书大数据智能分析的开放平台，以当事人为中心构建了结构化的司法大数据知识库和知识图谱。首次较为精准地构建了中国重新犯罪的指标体系。研究并实现了智能检索、网络关联分析、罪名和刑期预测等。平台的后端数据库搭建以及信息抽取，以原始的裁判文书为输入，利用正则表达式、CRF 等构造文本解析模型，从被告人信息、犯罪事实信息、判决结果信息三个维度抽取出 40+相关字段并结构化到数据库中。目前后台数据库已有关键字段 40+,包括报告人姓名、性别、民族、出生日期、教育程度、户籍等被告人信息，犯罪时间、犯罪地点、作案工具、犯罪原因等犯罪事实信息，罪名、刑期、法律条文、剥政年限等判决结果信息。字段平均准确率 97.92%，平均召回率 96.88%，平均 F1 值 97.35%。