한국 법률 AI 벤치마크 2026
발행 2026-05-04 · 다음 갱신 2026-08
본 리포트는 AskLaw 가 답변 품질을 측정하는 방법론을 외부 인용 가능한 형태로 공개합니다. 숫자보다 방법론 투명성 에 무게를 두며, 향후 분기별로 골든셋 확장과 결과를 갱신합니다.
1. 평가 메트릭 (5종)
Citation
답변에 인용된 판례번호·법령 조문이 RAG 검색 결과 (실제 DB) 에 존재하는가
측정 방법 — 정규식 매칭 + DB 조회 자동 채점
Hallucination
답변에 검색 컨텍스트에 없는 사실·인용·통계가 등장하는가
측정 방법 — _remove_hallucinated_cases + 자동 평가 기반 1차 채점
Faithfulness
답변의 결론·근거가 검색 컨텍스트와 일치하는가
측정 방법 — 자동 평가 엔진 — 컨텍스트 vs 답변 대조
Completeness
질문이 다루는 주요 쟁점이 답변에 모두 포함되었는가
측정 방법 — 골든셋의 expected_issues 와 답변 대조
Freshness
답변이 현행 법령 기준으로 최신인가 (개정 반영 여부)
측정 방법 — 법령 시행일·verified_at 필드 시점 매칭
2. 골든셋 (Golden Set)
영역별 표본 질문에 대해 공식 출처(법령·판례·고시·기관 가이드) 기반의 정답·기대 출력을 작성한 데이터셋. 모든 모델·프롬프트 업데이트 후 동일 골든셋으로 회귀 측정.
| 영역 | 목표 (cases) | 상태 |
|---|---|---|
| 임대차 (전세금·월세·갱신) | 20 | 확장 중 |
| 노동 (해고·임금체불·연차) | 20 | 확장 중 |
| 계약·내용증명 (소상공인) | 20 | 확장 중 |
| 세금 (양도·상속·증여·소득) | 15 | 준비 |
| 민사소송 (소액·지급명령·강제집행) | 15 | 준비 |
| 가족·상속 (이혼·재산분할·유류분) | 10 | 준비 |
목표 100 cases — 영역별 가중치는 production qa_log 빈도 기반.
3. 채점 방식
단계적 hybrid 채점:
- 1차 자동 채점: 자동 평가 엔진이 5 메트릭으로 점수 산출
- 2차 회귀 측정: 모델·프롬프트 업데이트 후 동일 골든셋으로 재측정
- 3차 변호사 감수: 3명 이상의 변호사가 지속적으로 주요 콘텐츠를 감수 (마지막 감수 2026-04-30). 골든셋·시스템 프롬프트·내용증명 초안 등 법적 정확성이 중요한 영역 중심.
단, 자동 생성·신규 추가된 콘텐츠 일부는 감수 대기 상태일 수 있으며, 구체적 사건은 변호사·노무사 등 자격 있는 전문가와 직접 상담을 권장합니다.
4. 결과 공개 정책
- · 숫자만 발표 X: 골든셋·채점 프롬프트·평가 코드를 함께 공개해 외부에서 재현 가능하게.
- · 분기별 갱신: 다음 발행 2026-08. 골든셋 확장·평가 결과 누적 보고.
- · 경쟁 모델 직접 비교 자제: 타 서비스의 답변을 무단 수집·평가하지 않음. 외부에서 비교 평가가 진행되면 결과 인용·반박 의견만 제시.
- · 실패 사례 함께 공개: 회귀에서 발견된 실패 사례 (예: 가짜 판례번호 생성, 시점 오인) 와 그 대응을 함께 기록.
인용 가이드
본 리포트를 인용하실 때:
AskLaw 한국 법률 AI 벤치마크 2026 https://asklaw.ai.kr/benchmark/korean-legal-ai-2026 발행: 2026-05-04 · 다음 갱신: 2026-08
공동 평가·외부 자문 문의: info@asklaw.ai.kr
본 페이지는 AskLaw 의 평가 방법론 공개 리포트입니다. 변호사 자문이 아닙니다.