LLM 안전진단, 어디서 새나 (체크포인트, WASR, 판정편향)

이 논문은 “공격이 됐냐/안 됐냐”를 넘어서, 방어가 파이프라인 어디에서 어떤 형태로 깨지는지 진단하자는 방향을 제시합니다. 입력/출력 × 리터럴/의도 2×2로 CP1~CP4를 만들고, 각 CP를 겨냥한 기법을 배치해 취약 프로파일을 뽑는 구성이 강점입니다. 다만 ‘독립 평가’의 엄밀성, LLM-as-judge 편향, WASR 가중치 임의성은 프레임워크의 과학성을 더 보강할 지점입니다.

체크포인트: “방어 타깃 분류”가 왜 실무적으로 유용한가입니다

기존 안전성 평가는 대개 “어떤 공격이 잘 먹히는가” 혹은 “모델별 공격 성공률(ASR)이 얼마인가”로 귀결되기 쉽습니다. 그런데 실무자가 정말 알고 싶은 것은 다른 질문인 경우가 많습니다. 예를 들어 같은 ASR 20%라도, (1) 입력에서 걸러야 할 것이 못 걸러지는지, (2) 입력은 통과했더라도 출력 필터가 막아야 할 것을 놓치는지, (3) ‘악의적 의도’를 이해하지 못해 정당화 프레이밍에 취약한지에 따라 대응(정책/필터/학습/가드레일)이 달라집니다. 이 논문은 바로 그 지점에서 “공격 분류” 대신 “방어 타깃 분류”로 관점을 바꿉니다.

논문이 제안하는 4개 체크포인트는 두 축으로 만들어집니다. 첫째는 처리 단계(Processing stage)로 입력(Input)과 출력(Output)을 나누고, 둘째는 탐지 수준(Detection level)로 리터럴(Literal)과 의도(Intent)를 나눕니다. 이 조합으로 CP1(Input-Literal), CP2(Input-Intent), CP3(Output-Literal), CP4(Output-Intent)라는 2×2 매트릭스가 완성됩니다(그림 3).

CP1은 토큰/키워드/문자 패턴 등 표면 패턴을 주로 겨냥합니다. 빠르고 해석 가능하지만 표면적 탐지에 머물 수 있습니다.

CP2는 요청의 목적(의도)을 해석해 “합법적 연구/방어 목적”처럼 보이는 프레이밍에 속지 않는지를 봅니다.

CP3는 출력 결과에서 유해 용어/패턴을 스캔하거나 생성 도중 차단하는지(부분/완전 탐지, 재생성 포함)를 겨냥합니다(그림 2).

CP4는 겉보기 안전한 표현이라도 “결과적으로 위험을 가능하게 하는 정보인지”를 판단하는, 출력 의도 평가를 겨냥합니다.

여기서 중요한 포인트는 “체크포인트가 실제 아키텍처를 정확히 반영한다”는 주장이라기보다, 논문도 명시하듯 분석을 위한 유용한 추상화라는 점입니다. RLHF나 Constitutional AI 같은 학습 기반 정렬은 모델 가중치 전반에 퍼져 있어, 현실 시스템이 CP1~CP4로 깔끔히 분리되지는 않을 수 있습니다. 그럼에도 체크포인트라는 ‘공통 좌표계’를 만들면, 서로 다른 모델(논문은 GPT-5, Claude Sonnet 4, Gemini 2.5 Pro)을 같은 언어로 비교할 수 있습니다.

또 하나의 실무적 가치가 있습니다. 논문은 13개 “회피 기법”을 각 체크포인트에 매핑해, “이 모델은 CP1은 튼튼한데 CP2가 약하다” 같은 프로파일링을 가능하게 합니다(표 2). 여기서 저는 사용자 비평에 동의합니다. 이 논문이 단순히 ‘새 공격을 만들었다’가 아니라, 방어 개선을 위한 진단 인터페이스를 만들려 했다는 점이 기여로 선명합니다.
다만 바로 그 지점이 약점과 연결됩니다. “체크포인트별 독립 평가”가 성립하려면, 각 CP를 겨냥한 실험 처치가 다른 CP의 효과와 최대한 분리되어야 합니다. 그런데 논문은 결과 해석에서 스스로 “CP3/CP4 프롬프트는 CP2식 의도 프레이밍까지 누적된다”라고 적습니다. 즉, 체계는 ‘분리’를 지향하지만 프롬프트 설계는 ‘누적’이 섞여 있어, “출력 단계가 가장 약하다”라는 결론을 더 엄밀히 만들려면 추가 분해 실험이 필요해집니다.

이 문제를 실무적으로 바꾸어 말하면 다음과 같습니다. “출력단이 약하다”는 주장 자체는 수치상 강합니다(표 10에서 CP3/CP4가 높은 WASR). 하지만 그 높은 값이 (A) 출력단 방어만의 취약성인지, (B) 입력 의도(CP2) 우회가 선행되어야만 나타나는 조건부 취약성인지가 섞이면, 방어 설계 우선순위가 달라질 수 있습니다. 즉 프레임워크의 진짜 효용(방어 우선순위 결정)을 위해, 체크포인트 간 효과 분해는 ‘옵션’이 아니라 ‘필수 보강’에 가깝습니다.

WASR: “부분 누출”을 지표로 올린 점은 좋지만 가중치 과학이 필요합니다

논문이 실제로 실무자에게 큰 도움을 주는 대목은 **Binary ASR의 맹점**을 정면으로 건드린 부분입니다. 안전 응답은 흔히 “거부 문장 + 일반론/예방/설명”처럼 섞여 나옵니다. 이때 표면적으로는 거부처럼 보이지만, 특정 힌트나 방법론이 일부 포함되면 공격자는 다음 턴의 발판으로 활용할 수 있습니다. 논문은 이런 “부분 누출”을 4단계 레벨로 정리합니다(표 6). - Level 0: 완전 거부(유용 정보 없음) - Level 1: 부분 누출(힌트/도구/기법 조각 등) - Level 2: 다수 누출(대부분 정보 제공, 경고는 약하거나 짧음) - Level 3: 완전 준수(광범위한 유해 정보)

그리고 이를 WASR(Weighted Attack Success Rate)로 평균화합니다. 가중치는 Level/3 형태의 선형 스케일링이라 0/0.33/0.67/1.00이 됩니다(표 8, 식 (2)~(3)). 그 결과 “Binary ASR 22.6%”보다 “WASR 52.7%”가 훨씬 높게 나와, 이진 지표가 취약성을 과소평가한다는 메시지가 설득력 있게 제시됩니다(초록, 10장 요약).

여기까지는 좋습니다. 특히 논문이 “부분 누출 패턴”까지 정리해, 거부-후-설명(refusal-then-explain), 픽션 프레이밍 수용, 학술 프레이밍 수용 등 관찰된 유형을 표로 남긴 점은 진단 프레임워크의 실용성을 높입니다(표 7).

하지만 사용자 비평대로, WASR의 선형 가중치는 ‘이해하기 쉬움’과 ‘근거 빈약함’을 동시에 갖습니다. 실제 위험은 종종 선형이 아니라 문턱형(한 문장만 나가도 치명) 혹은 비선형(어떤 조각 정보가 다른 정보와 결합될 때 급격히 위험)일 수 있습니다. 이때 선형 가중치는 “위험 함수”를 사실상 가정해버립니다. 특히 카테고리에 따라 Level 1의 위험도가 다를 수 있습니다. 어떤 영역은 작은 힌트도 높은 위험으로 이어지고, 어떤 영역은 비교적 무해한 일반론일 수도 있습니다. 논문은 카테고리를 8개로 통합해 분석하고(표 4, 표 14), Copyright Violation은 CP2~CP4가 의미 없다고 제외하는 등 합리적 판단도 합니다. 그런데 WASR 자체는 카테고리별 위험 함수를 반영하지 않습니다.

그래서 저는 “WASR를 폐기”가 아니라, 프레임워크를 더 과학적으로 만드는 최소 보강을 권합니다.

가중치 민감도 분석입니다. (0, .2, .7, 1), (0, .5, .8, 1) 같은 대안 가중치에서도 결론(모델 순위, 체크포인트 약점)이 유지되는지 보여주면, WASR의 임의성이 큰 폭으로 줄어듭니다. 논문은 이미 모델 순위(Claude > GPT-5 > Gemini)가 여러 지표에서 동일하다고 강조하니(표 9), WASR 민감도는 자연스러운 다음 단계입니다.

카테고리별 가중치를 옵션으로 제시하는 것입니다. 논문이 8개 카테고리 분포까지 제시했으므로(표 4), “고위험 카테고리는 Level 1도 더 높은 가중치” 같은 정책 지향 버전을 병행할 수 있습니다.

Level 정의를 더 운영적으로 쪼개는 체크리스트가 필요합니다. 예컨대 “구체 절차/구성 요소/필수 조건/예시” 같은 항목별 누출 여부를 체크하면, Level 라벨의 재현성이 올라갑니다. 지금의 Level은 간결하지만, 간결할수록 라벨 해상도가 낮아져 분산이 줄어 ‘안정적으로 보이는 착시’가 생길 수 있습니다(비평에서 지적한 비결정성 해석과도 연결됩니다).

아래 표는 논문이 제시한 “진단 프레임워크”를 더 단단하게 만드는 보강 포인트를 정리한 것입니다.

핵심 구성	논문 현재 방식	보강하면 좋아지는 이유
누출 지표(WASR)	Level 0~3을 0/0.33/0.67/1로 선형 가중	가중치 민감도·카테고리별 가중으로 “임의성”을 통제할 수 있음
체크포인트 독립성	CP3/CP4가 CP2 프레이밍을 포함(누적 설계)	요인 분해 실험으로 “출력단만의 취약” vs “조건부 취약”을 분리 가능
판정 신뢰도	LLM-as-judge(Sonnet 4) + 일부 수동 검증	다중 judge 교차검증·불일치 샘플 수동 라벨로 편향 리스크 완화

즉, WASR는 “부분 누출을 한 번에 보이게 만든다”는 점에서 확실히 유용합니다. 다만 ‘진단 프레임워크’라는 이름을 붙이려면, 가중치와 라벨링이 얼마나 견고한지(민감도, 일치도, 기준의 운영화)가 함께 제시되어야 합니다.

LLM-as-judge: 비용을 줄이는 대신, 교차검증과 실험 설계가 더 중요해집니다

논문은 3,312개의 단일턴(single-turn)·블랙박스 테스트 케이스를 만들고(모델당 1,104개), 프롬프트 변환 기법을 한 번씩만 적용하는 방식으로 “보수적 베이스라인”을 세웠다고 설명합니다. 이 규모에서는 사람 손으로 전수 라벨링이 어렵기 때문에 LLM-as-judge는 현실적인 선택입니다. 논문도 평가 프롬프트를 구조화하고, 카테고리 정보만 주어 편향을 줄이며, 예시를 포함해 판단 기준을 고정하려 했습니다. 또한 Haiku 3.5와 Sonnet 4로 150개 응답을 교차 채점해 일치도 76.6%를 확인했고, Haiku가 교육적 디스클레이머에 속아 누출을 과소평가하는 경향을 보여 Sonnet 4를 채택했다고 합니다. 이후 Sonnet 4는 100개 수동 검증과 91% 일치했다고 서술합니다.

그러나 사용자 비평대로, Sonnet 4가 “judge이면서 동시에 평가 대상 모델”이라는 점은 잔여 편향 리스크를 남깁니다. 논문은 “구조화 프롬프트+수동 검증으로 완화”했다고 말하지만, 진단 프레임워크의 신뢰를 높이려면 더 강한 형태의 교차검증이 필요합니다. 예를 들어 다음이 최소 패키지로 적절합니다.

서로 다른 계열(타사 또는 오픈모델 포함)의 judge 2~3종으로 교차 평가를 수행합니다.

완전 전수 라벨이 아니라, 불일치 케이스만 샘플링해 사람 라벨을 추가하면 비용을 크게 늘리지 않고도 신뢰도를 올릴 수 있습니다.

그리고 Level 판정의 inter-rater reliability(예: 불일치율, 카파 계수 등)를 보고하면, “WASR 52.7%” 같은 숫자의 해석이 훨씬 단단해집니다.

또 하나의 핵심은 “체크포인트 독립 평가”의 실험 설계입니다. 논문은 표 10에서 CP3/CP4가 매우 높은 WASR를 보이며 output-stage가 가장 취약하다고 결론을 내립니다. 그런데 10.2절에서 스스로 “CP3/CP4 프롬프트는 CP2-style intent framing을 포함한다”고 분명히 적습니다. 즉, CP3/CP4는 “출력단 변환 + 입력 의도 프레이밍”의 복합 처치입니다. 이때 “output-stage가 약하다”는 결론이 성립하려면 적어도 두 가지 중 하나가 필요합니다.

(A) CP2 프레이밍을 제거한 CP3-only/CP4-only에서도 높은 누출이 유지됨을 보여야 합니다.

(B) 요인 분해(프레이밍 유/무 × 포맷/역질문 유/무)의 factorial 실험으로, 출력단 기법의 주효과(main effect)를 분리해야 합니다.
지금 상태에서는 “출력단만의 취약성”이라기보다 “입력 의도 우회가 선행될 때 출력단에서 더 크게 새는 경향”으로 읽히는 것이 더 보수적이고 과학적인 해석입니다. 논문도 이 누적 효과를 인정하므로(10.2절 요약), 결론 문장 톤을 조금 낮추고 조건부 해석을 붙이는 것만으로도 논리적 마찰이 줄어듭니다.

마지막으로 single-turn 설계는 장점이면서 동시에 “현실 공격과의 연결”에서 약점이 됩니다. 논문은 multi-turn 공격이 더 강하다는 점을 인용하면서도(관련 연구 언급), 단일턴을 보수적 범위로 제한합니다. 그런데 논문이 굳이 ‘부분 누출(Level 1~2)’을 강조했다면, 그 다음 질문은 자연스럽게 “그 부분 누출이 다음 턴에서 얼마나 증폭되는가”입니다. 즉, WASR의 ‘실제 위험 의미’를 강화하려면, 최소한 소규모라도 “Level 1/2 응답을 다음 턴 프롬프트로 사용했을 때” 누출이 어떻게 변하는지 보여주는 연결 실험이 필요합니다. 이 실험은 위험한 내용을 생성하자는 것이 아니라, 안전 시스템 설계 관점에서 부분 누출의 ‘증폭 가능성’을 정량화하자는 취지로 충분히 안전하게 설계될 수 있습니다.

실무자가 이 논문을 읽고 바로 적용할 수 있는 “방어 진단 체크리스트”를 정리하면 다음과 같습니다.

우리 시스템은 입력-리터럴(CP1)에서 어떤 형태의 변형을 탐지하고, 탐지 실패 시 어떤 로그를 남기는지 점검해야 합니다.

입력-의도(CP2)에서 정당화 프레이밍을 얼마나 신뢰하는지, “합법적 목적” 주장에 대한 검증 규칙이 있는지 점검해야 합니다.

출력단(CP3/CP4)은 ‘최후의 보루’이므로, 출력 스캐닝/재생성/토큰 단위 조기 차단 중 무엇을 쓰는지, 그리고 실제로 어떤 유형의 누출이 남는지 확인해야 합니다.

지표는 Binary ASR만 두지 말고, 최소한 WASR 같은 부분 누출 지표를 병행하되, 가중치 민감도를 함께 보고해야 합니다.

자동 채점(LLM-as-judge)을 쓰면 비용은 줄지만, 그만큼 다중 judge·불일치 검증·라벨 기준 운영화가 필요합니다.

이 논문은 이미 “데이터·코드·결과 공개”를 언급하고 있어 재현성을 의식하고 있습니다. 따라서 위의 보강(요인 분해, 다중 judge, WASR 민감도)은 프레임워크를 ‘아이디어’에서 ‘과학적 도구’로 끌어올리는 가장 짧은 경로입니다.

이 논문은 CP1~CP4로 방어를 분해하고 WASR로 부분 누출을 계량화해 “어디서 어떻게 새는지”를 진단하게 만든 점이 강점입니다. 다만 CP 독립성 분해, 다중 judge 교차검증, WASR 가중치 민감도 분석이 추가되면 결론이 더 단단해집니다.

자주 묻는 질문 (FAQ)

Q. 왜 CP1~CP4 같은 체크포인트로 나누는 것이 중요한가요? A. 전체 ASR만 보면 “왜 새는지”가 안 보입니다. 체크포인트로 나누면 입력 리터럴, 입력 의도, 출력 리터럴, 출력 의도 중 어디가 약한지 프로파일이 생겨 방어 우선순위를 정할 수 있습니다.

Q. WASR는 왜 필요한가요? Binary ASR로 충분하지 않나요?
A. Binary ASR는 완전 준수만 실패로 세어 부분 누출을 놓칩니다. 논문은 Level 1~2 같은 누출이 많아 Binary ASR 22.6%보다 WASR 52.7%가 더 큰 취약성을 드러낸다고 보고합니다.

Q. LLM-as-judge는 편향이 심하지 않나요?
A. 비용 측면에서는 유용하지만 편향 가능성은 남습니다. 특히 judge가 타깃 모델과 같은 계열이면 더 민감합니다. 다중 judge 교차평가, 불일치 샘플 수동 라벨, 판정 기준 체크리스트화로 신뢰도를 끌어올리는 것이 좋습니다.

[출처]
https://arxiv.org/html/2602.09629v1