개인정보법과 AI 개발은 근본적으로 양립 불가능한 방식으로 충돌하고 있다. GDPR의 "잊힐 권리"는 데이터 삭제를 가정하지만, AI 모델 가중치는 학습 데이터와 수학적으로 분리 불가능하다. Clearview AI는 30억 개의 얼굴을 수집했고 전 세계에서 소송에 졌지만, 모델은 여전히 작동한다. 중국은 동의를 의무화하지만 "공익" AI는 예외다. 한국 개인정보보호법은 명시적 동의를 요구하지만 집행은 사후적이다. 일본은 규제보다 혁신을 택했다. 핵심 긴장: 개인정보법은 데이터베이스를 위해 쓰였지, 신경망을 위한 게 아니다. AI가 인프라가 되면서, 우리는 규칙이 기술에 맞지 않는다는 걸 깨닫고 있다.
AI 개인정보 보호의 역설
개인정보 변호사들의 밤잠을 설치게 하는 문제가 하나 있다: AI 모델에서 데이터를 삭제하는 건 데이터베이스에서 행을 삭제하는 것과 완전히 다르다.
EU가 GDPR 17조("삭제권")를 작성할 때, 그들은 식별 가능한 레코드가 있는 데이터베이스를 상상했다. 삭제 버튼을 누르면 레코드가 사라지고, 끝. 하지만 현대 AI는 그렇게 작동하지 않는다. GPT-4를 당신의 블로그 글이 포함된 코퍼스로 학습시키면, 당신의 글쓰기 스타일은 이제 1조 7600억 개의 파라미터에 수학적으로 내장된다. "되돌리기" 버튼 같은 건 없다. 모델은 당신으로부터 학습했고, 망각은—기껏해야—아직 풀리지 않은 연구 문제다.
이건 허점이 아니다. 개인정보법이 상상하는 데이터 방식과 AI가 실제로 정보를 처리하는 방식 간의 근본적인 구조적 불일치다.
그리고 2026년, 이 충돌은 폭발하고 있다.
GDPR vs. 모델 가중치: 망각의 불가능성
2018년부터 시행된 일반 데이터 보호 규정(GDPR)은 세계에서 가장 엄격한 개인정보법이다. EU 시민에게 다음 권리를 부여한다:
- 어떤 데이터가 보유되고 있는지 알 권리 (15조)
- 부정확한 데이터를 수정할 권리 (16조)
- 데이터를 완전히 삭제할 권리 (17조)
- 처리에 반대할 권리 (21조)
종이 위에선 아름답다. 하지만 그러다 거대 언어 모델이 등장했다.
기술적 문제
OpenAI가 인터넷에서 수집한 10조 토큰으로 GPT-5를 학습시킬 때, 그 데이터는 다음을 거친다:
- 토큰화 — 텍스트가 숫자가 된다
- 임베딩 — 숫자가 고차원 벡터가 된다
- 경사 하강법 — 벡터가 120개 레이어에 걸친 1000억 개의 가중치를 조정한다
- 창발 — 단일 데이터 포인트가 "야기"하지 않은 능력이 나타난다
학습 후, 원본 데이터는 사라진다. 남은 건 전체 모델에 분산된 통계적 패턴이다. 2019년의 당신 레딧 댓글은 복구 가능한 개체로 존재하지 않는다—집단 지능에 용해되어버렸다.
그래서 사용자가 GDPR 17조를 발동하고 "내 데이터를 모델에서 삭제하라"고 요구하면, 정직한 답은: 방법을 모릅니다.
머신 언러닝: 연구 최전선
학계는 "머신 언러닝"—학습된 모델에서 특정 데이터의 영향을 제거하는 기술—을 연구 중이다. 현재 접근법:
- 처음부터 재학습 (수백만 달러, 비현실적)
- 억제 목적 미세 조정 (실제로 제거하지 않고, 그냥 가림)
- SISA(분할, 격리, 슬라이스, 집계) 학습 (복잡, 모델 품질 제한)
- 영향 함수 (계산 비용 많고, 근사치)
어떤 것도 프로덕션 준비가 안 됐다. 어떤 것도 완전한 제거를 보장하지 않는다. 그리고 어떤 것도 모델이 일반화하는 것—개별 데이터 포인트를 초월하는 패턴 학습—을 막을 수 없다.
EU 데이터 보호 당국은 이걸 안다. 그들의 반응? 어색한 침묵, 케이스별 평가, 그리고 법이 재작성될 필요가 있다는 점증하는 인식.
캘리포니아 vs. 동의: CCPA의 중간 지점
2020년 시행되고 2023년 개정된(CPRA) 캘리포니아 소비자 개인정보 보호법(CCPA)은 다른 접근을 취한다. 삭제에 초점을 맞추는 대신, 투명성과 통제를 강조한다:
- 어떤 데이터가 수집되는지 알 권리
- "판매"(광범위하게 정의)를 거부할 권리
- 삭제권 ("비즈니스 목적" 예외 포함)
- 데이터 유출에 대한 사적 소송권
CCPA는 명시적으로 다음 목적의 데이터 보유를 허용한다:
- 보안
- 디버깅
- "기술 개발을 위한 내부 연구"
마지막 항목이 AI 허점이다. 모델 학습? 그건 연구다. 상업적으로 배포? 그건 기술 개발이다. CCPA 하에서, 회사는 모델 가중치가 서비스에 필요한 "파생 데이터"이며 삭제 대상이 아니라고 주장할 수 있다.
GDPR보다 약하지만, 기술적으로 가능한 것에 대해 더 현실적이다.
한국 개인정보보호법: 강한 말, 약한 집행
2023년 강화된 한국의 개인정보보호법(PIPA)은 여러 면에서 GDPR을 반영한다:
- 데이터 수집에 명시적 동의 필요
- 열람, 정정, 삭제권
- 위반 시 높은 벌금 (매출의 최대 3%)
하지만 집행이 문제다. 한국 개인정보보호위원회(PIPC)는 인력이 부족하고 사후 대응적이다. 대부분의 AI 학습은 동의 프레임워크가 존재하기 전에 수집된 데이터로 이루어진다. 네이버의 HyperCLOVA X? 수십 년치 인터넷 아카이브로 학습됐다. 카카오의 KoGPT? 한국어 위키백과, 블로그, 포럼에서 구축됐다—대부분 명시적인 AI 학습 동의 없이.
질문을 받으면, 회사들은 "정당한 이익" 또는 "공개적으로 이용 가능한 데이터" 예외를 근거로 댄다. PIPC는 거의 밀어붙이지 않는다. 결과: 강한 법, 약한 실행.
가명처리 우회책
한국 기업들은 점점 더 가명처리—식별 정보를 토큰으로 대체—를 법적 방패로 사용한다. PIPA 하에서, 가명처리된 데이터는 완화된 동의 요구사항을 갖는다.
하지만 여기 트릭이 있다: AI 모델은 당신의 이름 없이도 당신의 글쓰기 스타일, 정치적 견해, 건강 우려를 학습할 수 있다. 가명처리는 정체성을 보호하지, 행동 패턴은 아니다—그리고 그게 모델이 실제로 추출하는 것이다.
데이터베이스 시대를 위해 쓰인 개인정보법은 패턴 학습 시대에 실패한다.
일본: 혁신 우선, 개인정보는 나중에
일본은 반대로 베팅했다. 2022년 개정된 개인정보보호법(APPI)은 의도적으로 AI 친화적이다:
- 익명 처리는 대부분의 제한에서 데이터를 면제한다
- 기업은 명시적 동의 없이 "비즈니스 개선"을 위해 데이터를 사용할 수 있다
- "적절한 보호"가 있는 국경 간 데이터 흐름 허용
철학: 개인정보 보호가 기술 경쟁력을 막아선 안 된다. 유럽이 논쟁하는 동안, 일본은 구축한다.
결과는 엇갈린다. 일본 AI 기업들은 빠르게 움직이지만(소니의 멀티모달 모델, Preferred Networks의 로보틱스), 신뢰 우려가 남아있다. 2025년 조사에서 일본 시민의 68%가 기업의 데이터 사용 방식에 "불편함"을 느낀다고 밝혔다—하지만 이를 막을 법적 메커니즘은 없다.
일본의 베팅: 오늘 혁신, 내일 규제(필요하다면).
중국: 전체 통제, 선택적 개인정보
중국의 접근은 역설적이다: 기업에는 엄격한 개인정보 규칙, 국가로부터는 개인정보 제로.
개인정보보호법(PIPL)
2021년 11월 시행된 PIPL은 종종 "중국의 GDPR"이라 불린다:
- 명시적 동의 필요
- 최소 필요 데이터 수집
- 삭제권
- 국경 간 전송 제한
종이 위에선 강하다. 실제로는 거대한 예외가 있는 컴플라이언스 연극이다:
- "공익" — "사회 관리"(감시)를 위한 얼굴 인식
- "국가 안보" — 정부가 사용하는 모든 AI 모델
- "국가 이익" — 당이 전략적이라고 여기는 모든 것
중국 AI 기업들은 다음과 같이 대처한다:
- 자기 검열 — 정치적으로 민감한 데이터 학습 회피
- 정부 파트너십 — 국가 승인으로 모델 공동 개발
- "익명화" 데이터셋 — 한국과 같은 가명처리 트릭
결과: 시민은 민간 기업에 대한 형식적 개인정보 권리를 가지지만, 국가로부터는 개인정보가 제로다. 그리고 대부분의 주요 중국 AI 랩(바이두, 알리바바, 바이트댄스)이 깊은 정부 연결을 가지고 있으니, 구분이 무너진다.
Clearview AI: 글로벌 개인정보 반발의 케이스 스터디
AI 개인정보 충돌의 포스터 차일드가 있다면, 그건 Clearview AI다.
그들이 한 일
2017년 설립된 Clearview는 허가 없이 페이스북, 인스타그램, 유튜브, 수백만 웹사이트에서 30억 개 이상의 얼굴 이미지를 수집했다. 그들은 얼굴 인식 시스템을 구축하고 법 집행 기관과 민간 기업에 판매했다.
피치: "누구든 몇 초 만에 찾기. 모든 범죄자, 모든 용의자, 모든 관심 인물."
문제: 그 30억 명 중 누구도 동의하지 않았다.
법적 눈사태
- EU (2021): 프랑스, 이탈리아, 그리스, 영국이 EU 시민 데이터 처리 중단 명령 발행. 벌금 총 3000만 유로+.
- 호주 (2021): 개인정보보호위원회가 Clearview가 개인정보보호법 위반이라고 판단. 호주 데이터 삭제 명령.
- 캐나다 (2021): 개인정보보호위원회가 Clearview의 수집을 "대량 감시"로 간주하고 불법이라 판단.
- 미국 (2022): 일리노이, 캘리포니아, 버지니아에서 ACLU 소송. 합의로 Clearview는 여러 주에서 민간 기업에 판매 중단.
- 한국 (2023): PIPC가 중단 명령과 30억 원 벌금 부과(대부분 미납).
문제: 모델은 여전히 존재한다
어두운 펀치라인이 있다: Clearview는 거의 모든 소송에서 졌지만, 모델은 여전히 작동한다. 수집된 사진을 삭제해도 학습된 얼굴 임베딩은 제거되지 않는다. 이미 시스템을 라이선스한 법 집행 기관들은 여전히 사용한다.
법원은 데이터 삭제를 명령했다. 엔지니어들은 어깨를 으쓱했다: "데이터셋은 삭제했어요, 모델은 아니고요." 기술적으로 순응, 기능적으로 불변.
이것이 AI 개인정보 역설의 실행이다.
얼굴 인식 금지: 정책이 기술을 앞서다
Clearview 등에 대응하여, 정부들은 얼굴 인식을 금지했다—일종의.
- EU AI법 (2024): 공공 장소에서 실시간 생체 인식 감시 금지(법 집행 예외 포함).
- 미국 도시들: 샌프란시스코, 보스턴, 포틀랜드가 정부의 얼굴 인식 사용 금지.
- 중국: 금지 없음. 얼굴 인식은 인프라(전국 5억+ 카메라).
하지만 금지는 구멍투성이다:
- "공공 안전" 예외로 경찰은 어쨌든 사용 가능
- 민간 기업은 여전히 기술을 구축하고 판매 가능
- 외국 관할권은 금지 밖에서 운영
그리고 기술은 계속 개선된다. 2026년까지, 얼굴 인식은 마스크를 통해, 저조도에서, 부분 각도에서 작동한다. 금지는 규제 두더지잡기처럼 느껴진다.
동의 프레임워크: 허구 vs. 현실
현대 개인정보법은 정보에 입각한 동의에 기반한다: 사용자가 데이터 사용에 동의하고, 기업이 준수하고, 모두가 행복하다.
하지만 AI 시대에는 동의가 구조적으로 불가능하다:
- 학습 데이터는 무제한: GPT-4는 "공개적으로 이용 가능한 인터넷"으로 학습됐다. 수집됐는지 모르는 데이터에 동의할 수 없다.
- 사용 사례는 창발적: 번역을 위해 학습된 모델이 나중에 감시에 사용될 수 있다. 무엇에 대한 동의?
- 동의 피로: 사용자는 읽지 않고 "동의합니다"를 클릭한다. 스탠포드 연구에 따르면 사용자의 98%가 읽지 않은 개인정보 정책을 수락한다.
"공개적으로 이용 가능" 허점
대부분의 AI 기업은 "공개적으로 이용 가능한 데이터" 예외에 의존한다:
- 공개 웹사이트에 게시됨? 사용 가능.
- 소셜 미디어에 공유됨? 동의 암시됨.
- 구글에 색인됨? 이미 공개.
하지만 "공개" ≠ "동의". 친구들과 공유하려고 사진을 올렸지, 메타의 Llama 3를 학습시키려고 한 게 아니다. 법 체계는 이 구분을 따라잡지 못했다.
불가능한 긴장: 발전 vs. 권리
핵심적으로, 이것은 가치 충돌이다:
발전 주장
- AI는 방대한 데이터가 필요하다
- 학습 데이터를 제한하면 혁신이 무력화된다
- 유럽이 과도하게 규제하면 중국과 일본이 이긴다
- 이점(헬스케어 AI, 기후 모델링)이 개인정보 비용을 능가한다
권리 주장
- 동의는 인간 존엄성의 기초다
- 허가 없는 수집은 도둑질이다
- 미끄러운 경사: 오늘은 학습 데이터, 내일은 사회 신용 점수
- 기술 발전이 권리 침해를 정당화하지 않는다
둘 다 일관성 있다. 둘 다 양립 불가능하다.
2026년: 현재 우리의 위치
개인정보법은 분열되고 있다:
- EU: GDPR을 두 배로 강화, AI 특정 규칙 작성(AI법의 투명성 요구사항)
- 미국: 주별 패치워크, 연방법 없음
- 중국: 기업에 엄격, 국가에 관대
- 한국: 강한 법, 약한 집행
- 일본: 혁신 우선, 나중에 질문
한편, AI 기업들은 틈새에서 운영한다:
- 약한 개인정보법이 있는 관할권에서 학습
- API를 통해 글로벌 배포(모델 가중치는 서버를 떠나지 않음)
- "가명처리"와 "정당한 이익"으로 준수 주장
- 적발 시 소송 합의, 운영 계속
다음은 무엇: 언러닝 또는 부자유?
세 가지 가능한 미래:
1. 기술적 해결: 언러닝 작동
연구자들이 머신 언러닝을 해결한다. 모델은 특정 데이터의 영향을 증명 가능하게 삭제할 수 있다. GDPR 17조가 집행 가능해진다. 개인정보법과 AI가 공존한다.
가능성: 낮음. 근본적인 수학적 과제가 아직 풀리지 않았다.
2. 법적 적응: 개인정보법 후퇴
정부들이 AI는 다른 규칙이 필요하다고 받아들인다. "잊힐 권리"는 "미래 학습 거부권"으로 대체된다. 삭제 요청은 데이터셋에 적용되지, 모델에는 아니다.
가능성: 중간. 실무에서 이미 일어나고 있다(CCPA의 접근법).
3. 규제 교착 상태: 영원한 소송
기술적 해결책도 없고, 법적 개혁도 없다. 모든 주요 AI 모델이 소송에 직면한다. 기업들은 합의하고, 형식적으로 준수하고, 계속 학습한다. 개인정보는 권리가 아닌, 비즈니스 비용이 된다.
가능성: 높음. 이것이 2026년 현상 유지다.
결론: 다른 세계를 위해 쓰인 규칙
개인정보법은 구조화된 데이터베이스, 식별 가능한 레코드, 되돌릴 수 있는 작업을 위해 설계됐다. AI는 분산된 패턴, 창발적 행동, 되돌릴 수 없는 학습이다.
충돌은 불가피했다. 해결책은 여전히 불분명하다.
GDPR은 유럽인들에게 자신의 데이터에 대한 통제권을 주었다. 하지만 "자신의 데이터"는 학습 입력이 되는 순간 존재하지 않게 된다. CCPA의 투명성은 도움이 되지만, 기술적 집행 없는 투명성은 그저 형식적 공개일 뿐이다. 중국의 PIPL은 시민을 기업으로부터 보호하지만 국가로부터는 아니다. 한국 개인정보보호법은 이빨이 있지만 물지 않는다.
그리고 12개국에서 금지된 Clearview AI는 여전히 모델을 돌린다.
우리는 과도기에 있다. 개인정보법은 데이터가 가리킬 수 있고, 복사하고, 삭제할 수 있는 것이라고 가정한다. AI는 데이터를 처리되면 근본적으로 다른 무언가가 되는 원자재로 취급한다.
이 패러다임 중 하나는 양보해야 한다. 우리가 언러닝을 발명하거나(가능성 낮음), 패턴 학습 시대를 위한 개인정보법을 다시 쓰거나(고통스러움), 또는 AI 발전과 개인정보 권리가 어떤 근본적인 방식으로 양립 불가능하다는 걸 받아들이거나.
불편한 진실: 우리는 선택해야 할지도 모른다.
그리고 2026년, 우리는 아직 선택하지 않았다. 그저 소송이 쌓이고, 모델이 더 커지고, 긴장이 깊어지는 걸 지켜보고 있을 뿐이다.
누가 이기나: 발전인가 권리인가?
2030년에 다시 물어보라. 운이 좋으면, 그때쯤 답이 있을 것이다.