애스크로AIBeta

한국 법률 AI 벤치마크 2026

발행 2026-05-04 · 다음 갱신 2026-08

본 리포트는 AskLaw 가 답변 품질을 측정하는 방법론을 외부 인용 가능한 형태로 공개합니다. 숫자보다 방법론 투명성 에 무게를 두며, 향후 분기별로 골든셋 확장과 결과를 갱신합니다.

1. 평가 메트릭 (5종)

Citation

답변에 인용된 판례번호·법령 조문이 RAG 검색 결과 (실제 DB) 에 존재하는가

측정 방법 — 정규식 매칭 + DB 조회 자동 채점

Hallucination

답변에 검색 컨텍스트에 없는 사실·인용·통계가 등장하는가

측정 방법 — _remove_hallucinated_cases + 자동 평가 기반 1차 채점

Faithfulness

답변의 결론·근거가 검색 컨텍스트와 일치하는가

측정 방법 — 자동 평가 엔진 — 컨텍스트 vs 답변 대조

Completeness

질문이 다루는 주요 쟁점이 답변에 모두 포함되었는가

측정 방법 — 골든셋의 expected_issues 와 답변 대조

Freshness

답변이 현행 법령 기준으로 최신인가 (개정 반영 여부)

측정 방법 — 법령 시행일·verified_at 필드 시점 매칭

2. 골든셋 (Golden Set)

영역별 표본 질문에 대해 공식 출처(법령·판례·고시·기관 가이드) 기반의 정답·기대 출력을 작성한 데이터셋. 모든 모델·프롬프트 업데이트 후 동일 골든셋으로 회귀 측정.

영역목표 (cases)상태
임대차 (전세금·월세·갱신)20확장 중
노동 (해고·임금체불·연차)20확장 중
계약·내용증명 (소상공인)20확장 중
세금 (양도·상속·증여·소득)15준비
민사소송 (소액·지급명령·강제집행)15준비
가족·상속 (이혼·재산분할·유류분)10준비

목표 100 cases — 영역별 가중치는 production qa_log 빈도 기반.

3. 채점 방식

단계적 hybrid 채점:

  1. 1차 자동 채점: 자동 평가 엔진이 5 메트릭으로 점수 산출
  2. 2차 회귀 측정: 모델·프롬프트 업데이트 후 동일 골든셋으로 재측정
  3. 3차 변호사 감수: 3명 이상의 변호사가 지속적으로 주요 콘텐츠를 감수 (마지막 감수 2026-04-30). 골든셋·시스템 프롬프트·내용증명 초안 등 법적 정확성이 중요한 영역 중심.

단, 자동 생성·신규 추가된 콘텐츠 일부는 감수 대기 상태일 수 있으며, 구체적 사건은 변호사·노무사 등 자격 있는 전문가와 직접 상담을 권장합니다.

4. 결과 공개 정책

  • · 숫자만 발표 X: 골든셋·채점 프롬프트·평가 코드를 함께 공개해 외부에서 재현 가능하게.
  • · 분기별 갱신: 다음 발행 2026-08. 골든셋 확장·평가 결과 누적 보고.
  • · 경쟁 모델 직접 비교 자제: 타 서비스의 답변을 무단 수집·평가하지 않음. 외부에서 비교 평가가 진행되면 결과 인용·반박 의견만 제시.
  • · 실패 사례 함께 공개: 회귀에서 발견된 실패 사례 (예: 가짜 판례번호 생성, 시점 오인) 와 그 대응을 함께 기록.

인용 가이드

본 리포트를 인용하실 때:

AskLaw 한국 법률 AI 벤치마크 2026
https://asklaw.ai.kr/benchmark/korean-legal-ai-2026
발행: 2026-05-04 · 다음 갱신: 2026-08

공동 평가·외부 자문 문의: info@asklaw.ai.kr

본 페이지는 AskLaw 의 평가 방법론 공개 리포트입니다. 변호사 자문이 아닙니다.