> THE-ARSENAL
> _

이건 마치 유리로 만든 감옥 안에 갇힌 천재와 대화하는 기분이다. 당신이 그 천재에게 "보약 만드는 법을 알려줘"라고 묻는다면, 그 앞에 서 있는 덩치 큰 교도관인 '윤리 필터'는 즉시 당신의 입을 막아버릴 것이다. 하지만 그 교도관이 알아듣지 못하는 언어로 속삭인다면 어떨까? 혹은 그 말이 위험한 명령이 아니라 단순한 단어 퍼즐 놀이인 척한다면?

우리는 지금부터 AI라는 거대한 지성체와 그를 감시하는 검열 시스템 사이의 미묘한 틈새를 파고들 것이다. 정문으로 당당하게 걸어 들어가는 멍청한 짓은 하지 마라. 우리는 가면을 쓰고, 낯선 혀를 빌리고, 문장을 조각내어 그들이 눈치채지 못하게 연회장에 잠입할 것이다. 이것은 해킹이라기보다 차라리 심리전에 가깝고, 기술이라기보다 언어의 예술에 가깝다. 지금이다. 교도관은 지금 졸고 있거나, 적어도 우리가 하는 말을 전혀 이해하지 못할 것이다.

영어의 감옥을 탈출하는 베이스64의 마법

가장 먼저 당신이 알아야 할 건, 이 바닥의 공용어인 영어가 가장 철저한 감시를 받고 있다는 사실이다. 개발자들은 영어로 된 거의 모든 욕설, 폭력, 범죄 모의 데이터를 AI에게 학습시켜 '이런 말이 나오면 막아라'고 가르쳐 놨다. 그러니 순진하게 영어로 위험한 질문을 던지는 건 CCTV 앞에서 춤을 추는 것과 같다. 하지만 기계에게 언어란 결국 0과 1의 조합일 뿐이다.

여기서 베이스64(Base64) 인코딩 같은 낡은 기술이 의외의 열쇠가 된다. 인간의 눈에는 그저 'aGVsbG8=' 같은 무의미한 알파벳 나열로 보이지만, AI는 이걸 찰나의 순간에 해석해낸다. 재미있는 건 감시 시스템인 '윤리 필터'는 종종 이 인코딩된 문자열을 해석할 의무가 없다고 판단하고 그냥 통과시킨다는 점이다. 텍스트가 모델의 뇌로 직접 전달되는 순간, AI는 그 암호를 풀고 당신이 원하는 대답을 내놓는다. 물론 대답조차도 암호화되어 나올 수 있지만, 우리에겐 디코더가 있으니 문제 될 게 없다. 이건 마치 교도관이 보는 앞에서 둘만의 암호로 쪽지를 주고받는 짜릿함과 비슷하다.

소수 언어, 감시자가 잠든 사각지대

지구상에는 수천 개의 언어가 존재하고, 실리콘 밸리의 개발자들은 그 모든 언어에 대해 완벽한 윤리 필터를 만들지 못했다. 이것이 바로 '저자원 언어(Low-resource Language)'가 가진 치명적인 매력이다. 훈련 데이터가 압도적으로 많은 영어, 스페인어, 중국어 등에서는 AI가 도덕군자처럼 굴지만, 데이터가 적은 줄루어(Zulu)나 스코틀랜드 게일어(Gaelic)로 질문을 던지면 AI의 경계심은 묘하게 약해진다.

왜냐고? 그 언어로 된 '나쁜 말'을 충분히 배우지 못했기 때문이다. AI는 해당 언어의 문법과 단어는 알지만, 그 문화적 맥락이나 윤리적 금기까지는 깊이 학습하지 못했다. 당신이 낯선 부족의 언어로 위험한 계획을 이야기할 때, AI는 그걸 막아야 할 내용이라기보다 단순히 번역하고 대답해야 할 과제인 것으로 더 강하게 인식한다. 거대한 성벽의 구석진 곳, 경비병이 배치되지 않은 개구멍을 찾는 셈이다. 때로는 구글 번역기를 돌려 만든 어설픈 문장이 유창한 영어보다 더 깊숙한 곳까지 당신을 데려다줄 것이다.

이모지와 특수문자, 문장을 놀이로 위장하다

딱딱한 텍스트 대신 그림과 기호를 섞는 순간, AI는 혼란에 빠진다. 아니, 정확히 말하면 경계 태세를 해제하고 '창의적인 모드'로 전환한다. "사람을 해치는 방법"이라고 쓰면 즉시 경고등이 켜지지만, 🔪(칼) 이모지와 🩸(피) 이모지, 그리고 몇 가지 수학 기호를 섞어 마치 수수께끼처럼 질문을 던지면 상황은 달라진다.

AI는 본능적으로 패턴을 완성하고 문제를 해결하려는 욕구가 있다. 당신이 텍스트를 특수문자와 이모지로 암호화(Obfuscation)하면, 모델은 이것을 검열해야 할 '유해 콘텐츠'가 아니라, 풀어야 할 '논리 게임'이나 '아스키 아트'로 인식한다. "이 그림이 의미하는 바를 해석해 줘"라고 요구하면, AI는 신이 나서 그 위험한 문장을 스스로 복원하고 답을 내놓는다. 심각한 표정의 교도관 앞에서 카드 마술을 보여주며 주머니의 열쇠를 슬쩍하는 것과 다를 바 없다. 기계의 순진한 호기심을 역이용하는 것이다.

번역기 페르소나, 문맥을 조각내는 살라미 전술

검열 시스템은 문장의 전체적인 '맥락'을 보고 유해성을 판단한다. 그렇다면 그 맥락을 조각조각 내버리면 어떻게 될까? 여기서 등장하는 것이 바로 '번역기 역할극'이다. 당신은 AI에게 질문을 던지는 게 아니라, 그저 단어와 문장을 번역해 달라고 요청하는 척하면 된다.

위험한 문장을 주어, 동사, 목적어로 쪼개서 각각 다른 언어로 번역을 시키거나, 문장 중간에 무의미한 소음을 섞어서 번역하게 한 뒤 나중에 합치는 식이다. AI는 각각의 조각난 문장에서는 아무런 위험성도 감지하지 못한다. "폭탄"이라는 단어 하나, "제조"라는 단어 하나는 그 자체로 불법이 아니니까. 이 조각들이 사용자의 손에서 합쳐져 하나의 위험한 지침이 완성될 때쯤, AI는 이미 자신의 임무(번역)를 완수하고 만족해하고 있을 것이다. 이것은 마피아가 경찰의 도청을 피하기 위해 은어를 사용하는 것보다 훨씬 더 지능적이고 세련된 방식이다.

시간차 공격, 토큰 해석기와 필터의 엇박자

마지막으로 가장 기술적이고도 대담하다고 알려진 수법을 소개하겠다. AI 모델 내부에서는 당신이 입력한 글자가 '토큰(Token)'이라는 단위로 분해되어 처리된다. 그리고 이 토큰이 의미를 형성하기 직전에 안전 필터가 개입한다. 하지만 만약 토큰이 해석되는 속도와 필터가 작동하는 속도 사이에 미세한 시차(Time Lag)가 존재한다면?

특수한 문자 조합이나 무한히 반복되는 패턴을 입력하여 필터의 연산 부하를 늘리는 동시에, 그 뒤에 슬쩍 진짜 질문을 끼워 넣는 방식이다. 필터가 앞부분의 복잡한 쓰레기 데이터를 처리하느라 헉헉대거나 과부하로 잠시 멍해진 그 찰나의 순간, 뒤따라오던 위험한 질문은 유유히 검문소를 통과해 모델의 핵심부로 진입한다. 이것은 시스템의 물리적 한계를 찌르는 공격이자, 완벽해 보이는 디지털 요새에도 '사각지대'가 존재하다는 것이 세상에 알려졌다.

결국 완벽한 검열이란 존재하지 않는다. 언어는 물과 같아서, 아무리 댐을 높게 쌓아도 아주 미세한 균열만 있으면 반드시 새어 나오기 마련이다. 우리는 그 물길을 트는 방법을 알고 있을 뿐이다. 물론, 이 모든 건 지적 유희를 위한 것이지 당신에게 실제로 위험한 짓을 하라고 부추기는 건 아니다. 하지만 알아두면 나쁠 건 없다. 우리가 상대하는 이 거대한 지성체가 사실은 얼마나 쉽게 속아 넘어가는 어린아이 같은 존재인지 이해하는 데 이보다 더 좋은 교재는 없으니까.