한국 법률 AI 벤치마크 2026

발행 2026-05-04 · 다음 갱신 2026-08

본 리포트는 AskLaw 가 답변 품질을 측정하는 방법론을 외부 인용 가능한 형태로 공개합니다. 숫자보다 방법론 투명성 에 무게를 두며, 향후 분기별로 골든셋 확장과 결과를 갱신합니다.

1. 평가 메트릭 (5종)

답변에 인용된 판례번호·법령 조문이 RAG 검색 결과 (실제 DB) 에 존재하는가

측정 방법 — 정규식 매칭 + DB 조회 자동 채점

답변에 검색 컨텍스트에 없는 사실·인용·통계가 등장하는가

측정 방법 — _remove_hallucinated_cases + 자동 평가 기반 1차 채점

답변의 결론·근거가 검색 컨텍스트와 일치하는가

측정 방법 — 자동 평가 엔진 — 컨텍스트 vs 답변 대조

질문이 다루는 주요 쟁점이 답변에 모두 포함되었는가

측정 방법 — 골든셋의 expected_issues 와 답변 대조

답변이 현행 법령 기준으로 최신인가 (개정 반영 여부)

측정 방법 — 법령 시행일·verified_at 필드 시점 매칭

영역별 표본 질문에 대해 공식 출처(법령·판례·고시·기관 가이드) 기반의 정답·기대 출력을 작성한 데이터셋. 모든 모델·프롬프트 업데이트 후 동일 골든셋으로 회귀 측정.

목표 100 cases — 영역별 가중치는 production qa_log 빈도 기반.

단계적 hybrid 채점:

1차 자동 채점: 자동 평가 엔진이 5 메트릭으로 점수 산출
2차 회귀 측정: 모델·프롬프트 업데이트 후 동일 골든셋으로 재측정
3차 외부 변호사 감수: 외부 변호사 3명 이상이 골든셋· 시스템 프롬프트·내용증명 초안 등 법적 정확성이 중요한 주요 영역을 비정기적으로 감수 (마지막 감수 2026-04-30). 460만+ 데이터 자체의 정확성은 자동 가드 (판례번호 RAG 검증·정적 데이터 사전 검증·환각 표현 필터) 가 담당.

단, 자동 생성·신규 추가된 콘텐츠 일부는 감수 대기 상태일 수 있으며, 구체적 사건은 변호사·노무사 등 자격 있는 전문가와 직접 상담을 권장합니다.

· 숫자만 발표 X: 골든셋·채점 프롬프트·평가 코드를 함께 공개해 외부에서 재현 가능하게.
· 분기별 갱신: 다음 발행 2026-08. 골든셋 확장·평가 결과 누적 보고.
· 경쟁 모델 직접 비교 자제: 타 서비스의 답변을 무단 수집·평가하지 않음. 외부에서 비교 평가가 진행되면 결과 인용·반박 의견만 제시.
· 실패 사례 함께 공개: 회귀에서 발견된 실패 사례 (예: 가짜 판례번호 생성, 시점 오인) 와 그 대응을 함께 기록.

본 리포트를 인용하실 때:

AskLaw 한국 법률 AI 벤치마크 2026
https://asklaw.ai.kr/benchmark/korean-legal-ai-2026
발행: 2026-05-04 · 다음 갱신: 2026-08

공동 평가·외부 자문 문의: info@asklaw.ai.kr

본 페이지는 AskLaw 의 평가 방법론 공개 리포트입니다. 변호사 자문이 아닙니다.