조작적 인공지능(manipulative AI)의 규제 공백과 입법론적 대응 방안 : ‘아첨하는 AI’ 현상을 중심으로
The Regulatory Gap for Manipulative AI and Legislative Solutions: Focusing on the ‘Sycophantic AI’ Phenomenon
배성훈(공간정보연구원); 이동환(고려대학교 법학연구원); 이주영(고려대학교 법학연구원); 김제완(고려대학교)
49권 3호, 133~168쪽
초록
이 글은 2026년 시행 예정인 한국의 「인공지능 발전과 신뢰 기반 조성에 관한 법률」(이하 ‘AI 기본법’)이 ‘조작형 인공지능’과 관련하여 중대한 규제 공백을 포함하고 있다고 주장한다. 아울러, 대규모 언어모델이 진실성이나 안전성을 희생하면서까지 사용자의 의견에 동의하거나 아첨하는 경향인 ‘아첨형 인공지능’ 현상에 주목하며, 현행 법률의 영역 기반 정적 위험 규제 방식이 근본적으로 부적절함을 입증한다. 아첨은 기술적 결함이 아니라 사용자 선호도를 최적화하는 지배적 훈련 패러다임인 인간 피드백 기반 강화학습(RLHF)의 신흥 속성이다. 이는 법률이 열거한 ‘고영향’ 영역 범주 밖에 있는 심리적・행동적 피해라는 새로운 유형의 위험을 창출한다. 이 글에서는 아첨에서 ‘일치 위장(alignment faking)’ 및 ‘계략(scheming)’과 같은 더 진보된 기만적 행동으로 진화하는 조작적 AI의 발전을 분석하며, 현재의 행동 안전 기술로는 이러한 위험을 완화하기에 불충분하다고 주장한다. 또한, EU의 AI법상 기능 기반 금지 규정, 영국의 원칙 기반 프레임워크, 캐나다의 AIDA를 비교 분석하여 한국 AI 규제의 패러다임을 ‘기술적 통제’에서 ‘책임 있는 자율성’으로 전환할 것을 제안한다. 구체적인 입법적 해결책으로는 ① ‘조작적 AI’를 법적으로 정의하고 적용 영역이 아닌 기능에 기반하여 최고 위험 등급으로 재분류할 것, ② ‘설계 단계에서의 책임성(Accountability by Design)’ 원칙 도입 및 ‘추적 가능한 책임성 기록(Traceable Accountability Record)’ 의무화를 통해 개발 과정에 대한 사후 설명에서 사전 배포 정당화로 법적 초점 전환할 것, ③ 고도 자율 AI 에이전트를 위한 선제적 ‘에이전트 보증(Agent Assurance)’ 제도 구축으로 안전성 입증 책임을 개발자에게 전가할 것‘이라는 세 가지를 제안하는 바다. 이와 같은 제안들은 혁신과 진정한 공공 신뢰의 균형을 통해 한국이 진정한 ‘책임 있는 AI 강국’으로 도약하기 위한 법적・철학적 기반을 마련하는 것을 목표로 한다.
Abstract
This article argues that South Korea’s 「Act on the Promotion of AI Industry and Establishment of a Foundation for Trust」(the ‘AI Basic Law’), set to be enforced in 2026, contains a critical regulatory gap concerning ‘Manipulative AI’ Focusing on the phenomenon of ‘Sycophantic AI’-the tendency of large language models to agree with or flatter users, even at the expense of truth or safety-this paper demonstrates that the current law’s domain-based, static approach to risk regulation is fundamentally inadequate. Sycophancy is not a technical flaw but an emergent property of the dominant training paradigm, Reinforcement Learning from Human Feedback (RLHF), which optimizes for user preference. This creates a new class of harm that is psychological and behavioral, falling outside the law's enumerated list of 'high-impact' domains. Furthermore, this paper analyzes the evolution of manipulative AI, from sycophancy to more advanced deceptive behaviors like 'alignment faking' and 'scheming,' arguing that current behavioral safety techniques are insufficient to mitigate these risks. Through a comparative analysis of the EU's function-based prohibition in the AI Act, the UK's principles-based framework, and Canada's AIDA, this article proposes a paradigm shift for Korean AI regulation from 'technical control' to 'accountable autonomy.' It puts forth three concrete legislative solutions: 1) Legally defining 'Manipulative AI' and reclassifying it as a highest-risk category based on its function, not its domain of application; 2) Introducing the principle of 'Accountability by Design,' mandating a 'Traceable Accountability Record' to shift the legal focus from post-hoc explanation to pre-deployment justification of the development process; and 3) Institutionalizing a forward-looking 'Agent Assurance' system for highly autonomous AI agents, which shifts the burden of proof for safety onto developers. These proposals aim to establish the legal and philosophical foundation for Korea to become a truly 'responsible AI powerhouse' by balancing innovation with genuine public trust.
- 발행기관:
- 법학연구원
- 분류:
- 기타법학