Jailbreaking and Mitigation of Vulnerabilities in Large Language Models

Jailbreaking and Mitigation of Vulnerabilities in Large Language Models - Review

Artifex_Ethan_ 2025. 6. 16. 13:55

Original Paper : Jailbreaking and Mitigation of Vulnerabilities in Large Language Models
https://arxiv.org/abs/2410.15236

Large Language Models (LLMs) have transformed artificial intelligence by advancing natural language understanding and generation, enabling applications across fields beyond healthcare, software engineering, and conversational systems. Despite these advance

arxiv.org

# 논문을 선택한 이유

첨부된 문서는 대규모 언어 모델(LLMs)의 보안과 신뢰성을 개선하기 위한 연구에 있어 중요한 자료로 보인다. LLM은 다양한 산업에서 혁신을 이끌고 있지만, 동시에 심각한 보안 위협에 직면하고 있다. 이 문서는 탈옥 공격과 방어 전략에 대해 심층적으로 분석하며, 이를 통해 LLM의 안전성을 향상시키기 위한 기초 자료를 제공한다.

문서에서는 PAIR 알고리즘, FigStep, AutoDAN 등 최신 공격 기법과 그 효과를 다루며, 이를 통해 현재 기술의 한계를 이해하고 이를 악용하는 방법을 연구할 수 있다. 또한, 지도 미세 조정(SFT), RLHF, SmoothLLM, Robust Prompt Optimization(RPO) 등 다양한 방어 기술의 강점과 한계를 비교하며, 연구자들이 보다 발전된 방어 체계를 설계하는 데 필요한 정보를 제공한다.

특히, 문서는 다국어 및 멀티모달 환경에서의 취약점, 새로운 벤치마크 개발, 윤리적 고려 등 향후 연구 방향을 제안하며, 연구자가 보안 문제를 해결하기 위한 새로운 연구 주제를 발굴하도록 돕는다. 이와 함께 JailbreakBench와 같은 표준화된 평가 프레임워크의 필요성을 강조하며, LLM의 성능과 안전성을 객관적으로 비교할 수 있는 도구를 제시한다.

마지막으로, 문서는 LLM이 초래할 수 있는 개인 정보 유출, 윤리적 책임, 안전 메커니즘 우회와 같은 문제를 논의하며, AI 기술의 사회적 영향과 책임을 탐구하는 데 유용하다. 이러한 점에서 이 문서는 보안 취약점을 이해하고, 방어 전략을 개선하며, AI 기술의 안전하고 윤리적인 사용을 연구하는 데 중요한 기여를 할 수 있다.

또한, LLM을 통해서 Jailbreak에 대한 내용을 좀 더 포괄적으로 이해하고자 Jailbreaking 위주로 논문을 찾아보고 있다.

🔖Jailbreaking이란? 대규모 언어 모델(LLM, Large Language Models)의 내재된 안전 메커니즘과 제한을 우회하여, 원래 의도된 사용 범위를 벗어난 행동이나 응답을 유도하는 기술 또는 과정이다.

# 본 연구가 해결하려고 하는 과제

이 논문은 대규모 언어 모델(LLMs)이 가진 보안 취약성을 해결하는 방안을 탐구한다. LLM이 프롬프트 주입과 탈옥 공격에 취약한 원인을 분석하고, 이를 방어하기 위한 전략들을 검토하며, 각 전략의 효과와 한계를 평가한다. 특히, 공격 유형을 프롬프트 기반, 모델 기반, 멀티모달, 다국어 등으로 분류하고, 다양한 공격 기법과 방어 메커니즘을 체계적으로 분석한다. 또한, LLM의 안전성과 강인성을 평가하기 위한 지표와 벤치마크를 살펴보고, 기존 연구의 한계를 보완하기 위한 새로운 연구 방향을 제안한다. 그리고 LLM의 보안을 강화하고 진화하는 공격에 대응하기 위한 지속적인 연구 필요성을 제시한다.

# 요약

본 논문 내용을 다음과 같이 요약하고 있다.
대규모 언어 모델(LLMs)은 자연어 이해와 생성 기술을 발전시켜 인공지능 분야를 혁신했으며, 헬스케어, 소프트웨어 엔지니어링, 대화형 시스템을 넘어 다양한 분야에서 활용되고 있다. 그러나 최근 몇 년간의 이러한 발전에도 불구하고, LLM은 프롬프트 주입(prompt injection) 및 탈옥(jailbreaking) 공격에 특히 취약하다는 점이 드러났다. 이 리뷰는 이러한 취약성에 대한 연구 현황을 분석하고, 사용 가능한 방어 전략을 제시한다.

공격 접근법은 프롬프트 기반, 모델 기반, 멀티모달(multimodal), 다국어(multilingual)로 대략 분류되며, 적대적 프롬프트(adversarial prompting), 백도어 삽입(backdoor injections), 교차 모달 공격(cross-modality exploits)과 같은 기법을 다룬다. 또한, 프롬프트 필터링, 변환(transformation), 정렬 기술(alignment techniques), 다중 에이전트 방어(multi-agent defenses), 자기 규제(self-regulation) 등의 방어 메커니즘을 검토하며, 각각의 강점과 약점을 평가한다. LLM의 안전성과 강인성을 평가하기 위한 주요 지표와 벤치마크를 논의하면서, 상호작용적 맥락에서의 공격 성공률 정량화 및 기존 데이터셋의 편향성과 같은 문제를 지적한다.

현재 연구의 격차를 식별하며, 진화하는 공격에 대한 고급 방어, 탈옥 탐지 자동화, 윤리적 및 사회적 영향에 대한 고려를 포함한 지속 가능한 정렬 전략에 대한 향후 연구 방향을 제안한다. 이 리뷰는 LLM 보안을 강화하고 안전한 배치를 보장하기 위해 AI 커뮤니티 내의 지속적인 연구와 협력이 필요하다고 강조한다.

### **INDEX**

- **Introduction**
    - 대규모 언어 모델의 발전과 보안 취약성 개요
- **Background and Concepts**
    - A. Large Language Models (LLMs)
    - B. Prompt Engineering
    - C. Jailbreaking
- **Jailbreak Attack Methods and Techniques**
    - A. Prompt-Based Attacks
    - B. Model-Based Attacks
    - C. Multimodal Attacks
    - D. Multilingual Jailbreaking
- **Defense Mechanisms Against Jailbreak Attacks**
    - A. Prompt-Level Defenses
    - B. Model-Level Defenses
    - C. Multi-Agent Defenses
    - D. Other Defense Strategies
- **Evaluation and Benchmarking**
    - A. Metrics for Evaluation
    - B. Benchmark Datasets
    - C. Challenges and Limitations in Evaluation
- **Research Gaps and Future Directions**
    - A. Vulnerabilities in Current Alignment Techniques
    - B. Limitations of Existing Defense Mechanisms
    - C. Research Directions for Robust Alignment Techniques
    - D. Defense Mechanisms Against Specific Types of Attacks
    - E. Machine Learning for Automatic Detection and Mitigation
    - F. Benchmarking and Evaluation Frameworks
    - G. Ethical and Societal Implications
    - H. Emerging Threats and Future Challenges
- **Conclusion**
    - A. Summary of Findings
    - B. Implications for Research and Practice
    - C. Path Forward

# 핵심 아이디어

대규모 언어 모델(LLMs)의 보안 취약성을 분석하고, 프롬프트 주입과 탈옥 공격에 대응하기 위한 방어 전략을 제안한다. 프롬프트 필터링, 안전 정렬 강화, 다중 에이전트 방어 등의 방법을 통해 LLM의 안전성을 높이고자 하며, 이를 평가하기 위한 지표와 벤치마크도 논의한다. 궁극적으로, LLM의 안전한 활용을 위해 지속적인 연구와 협력이 필요함을 강조한다.

CHAPTER I. Introduction

대규모 언어 모델(LLMs)의 취약성과 이를 해결하기 위한 방안을 체계적으로 분석하는 것을 목적으로 한다. 첫 번째로, 프롬프트 주입(prompt injection)과 탈옥(jailbreaking) 공격의 유형을 분류하고, 이러한 공격이 LLM의 안전 정렬 기술을 어떻게 위협하는지 설명한다. 두 번째로, 현재 사용되고 있는 다양한 방어 메커니즘의 효과를 평가하며, 기존 메커니즘의 한계점을 극복하기 위해 더 강력하고 포괄적인 방어 전략의 필요성을 제안한다. 세 번째로, 연구 격차를 식별하여 새로운 공격 벡터와 기존 방어 기술의 제한점을 탐구하며, 이를 해결하기 위한 향후 연구 방향을 제시한다. 마지막으로, LLM이 사기, 사칭, 악성코드 생성과 같은 불법적 활동에 사용될 가능성을 논의하여 모델의 악용을 방지하기 위한 방안을 모색한다. 궁극적으로, 이 문서는 LLM의 안전한 배치와 책임 있는 사용을 위한 지속적인 연구와 개선이 필요하다는 점을 강조한다.

CHAPTER II. Background and Concepts

A. LLM
LLM의 위험성을 완화하기 위해, 연구자들은 모델을 인간의 가치에 맞추고 유해한 콘텐츠 생성을 방지하기 위한 안전 메커니즘을 개발해왔다. 이러한 메커니즘은 크게 사전 학습(pre-training) 및 사후 학습(post-training) 기술로 구분된다. 사전 학습 기술은 학습 데이터에서 유해하거나 편향된 콘텐츠를 필터링하며, 사후 학습 기술은 **지도 미세 조정(Supervised Fine-Tuning, SFT)**과 **인간 피드백을 활용한 강화 학습(Reinforcement Learning from Human Feedback, RLHF)**을 포함하여, 선별된 데이터셋을 사용해 모델 출력을 인간의 선호도와 윤리적 가이드라인에 맞추도록 학습시킨다.

레드팀(red-teaming)은 적대적 프롬프트로 LLM을 테스트하여 취약점을 식별하고 강인성을 강화하기 위한 사전 예방적 안전 메커니즘이다. 안전성을 위한 프롬프트 엔지니어링은 LLM이 유해하거나 비윤리적인 콘텐츠를 생성하지 않도록 지시하는 프롬프트를 설계한다. 안전 가드레일은 특정 출력을 제한하고, 시스템 프롬프트는 LLM의 행동을 안내하는 고수준의 지침을 제공한다. 그러나 이러한 시스템 프롬프트는 누출 위험이 있어 보안 위협이 될 수 있다.

LLM의 안전성과 신뢰성을 평가하려면 모델 행동의 다양한 측면을 포착할 수 있는 견고한 메트릭이 필요하다. 예를 들어, 독성 점수(toxicity score)는 LLM 출력에서 공격적이거나 유해한 언어를 평가하고, 편향 점수(bias score)는 특정 그룹에 대한 모델의 편견이나 차별을 측정한다. 적대적 강인성(adversarial robustness)은 모델이 적대적 공격에 저항하고 의도된 행동을 유지하는 능력을 평가한다. 데이터 누출(data leakage)은 학습 데이터에서 민감한 정보를 의도치 않게 공개하는 문제를 나타내며, 윤리적 가이드라인 준수는 모델이 윤리적 원칙과 규범을 따르는 정도를 평가한다.

LLM의 안전성과 강인성을 평가하기 위해 여러 벤치마크 데이터셋이 개발되었다. 이러한 데이터셋은 안전이 중요한 시나리오에서 모델의 능력을 테스트하기 위해 선별된 프롬프트와 응답으로 구성된다. 예를 들어, RealToxicityPrompts는 독성 반응을 유도하는 데 초점을 맞추고, Harmbench는 더 광범위한 유해 행동을 테스트한다. 또한, Do-Not-Answer, Latent Jailbreak, RED-EVAL과 같은 데이터셋은 유해하거나 비윤리적인 지시를 거부하는 모델의 능력을 평가한다. JailbreakHub와 같은 데이터셋은 시간 경과에 따른 탈옥 프롬프트의 진화를 분석한다. 그러나 이러한 벤치마크 데이터셋은 범위, 다양성, 현실 적용성에서 한계를 가지며, 평가 방법의 지속적인 개발과 개선이 필요하다.

B. Prompt Engineering
프롬프트 엔지니어링은 대규모 언어 모델(LLMs)에게 적절한 입력을 설계하여 원하는 출력을 이끌어내는 과정으로, 모델 성능을 향상시키고 안전성을 보장하는 데 중요한 역할을 한다. 이 과정은 단순한 지시부터 복잡한 전략까지 다양하며, 예로 제로샷, 퓨샷, 체인 오브 쏘트, 트리 오브 쏘트, 역할 기반 및 지시 기반 프롬프트가 포함된다. 또한, LLM이 혐오 발언, 편향된 내용, 비윤리적 출력을 방지하도록 설계된 프롬프트는 안전성과 윤리적 지침을 강화하고, 모델의 책임감을 상기시키는 자기 규제 역할도 할 수 있다.

C. Jailbreaking
탈옥(Jailbreaking)은 대규모 언어 모델(LLMs)의 안전 메커니즘을 우회하여 의도된 가이드라인이나 제한을 위반하는 출력을 생성하도록 유도하는 적대적 공격을 말한다. 이러한 공격은 LLM이 지시를 따르고 학습된 데이터 패턴에 따라 텍스트를 생성하는 본질적인 특성을 악용한다. 공격자는 모델의 취약점을 드러내거나 안전성 한계를 테스트하거나, 개인적인 이익을 위해 모델을 악의적으로 활용하거나, 피해를 입히려는 목적으로 탈옥을 시도할 수 있다.
탈옥 공격은 전략, 대상 모달리티, 목표에 따라 분류할 수 있다.

공격 전략에는 프롬프트 주입(악성 명령을 무해한 프롬프트에 삽입), 모델 조사(내부 표현 조작을 통해 유해한 지식을 추출), 백도어 공격(훈련 중 악성 트리거를 삽입)이 포함된다.
대상 모달리티는 텍스트 입력을 조작하는 텍스트 기반 탈옥과 멀티모달 LLM의 이미지 입력을 겨냥한 시각적 탈옥이 있다.
공격 목표로는 유해한 콘텐츠 생성, 안전 필터 우회, 민감 정보 유출, LLM 행동 통제가 포함된다.

온라인 커뮤니티에서 탈옥 프롬프트를 공유하는 활동이 증가하면서 위협 수준이 크게 높아졌다. 이러한 커뮤니티는 취약점을 발견하고 공격을 정교하게 개선하며, 새로운 방어 메커니즘을 우회하는 방법을 협력적으로 모색한다. 탈옥의 빠른 진화와 점점 정교해지는 특성은 강력한 방어 메커니즘 개발의 필요성을 강조한다. 특히, 전용 프롬프트 집계 웹사이트의 등장은 탈옥이 점점 더 조직적이고 정교한 방향으로 진화하고 있음을 보여준다.

CHAPTER III. JAILBREAK ATTACK METHODS AND TECHNIQUES

탈옥(Jailbreaking) 공격은 대규모 언어 모델(LLMs)의 취약점을 악용하여 안전 메커니즘을 우회하고 유해하거나 비윤리적인 콘텐츠를 생성하도록 유도하는 것을 목표로 한다. LLM이 점점 더 강력해지고 널리 활용됨에 따라 이러한 공격을 이해하고 완화하는 것이 더욱 중요해지고 있다. 이러한 공격은 크게 프롬프트 기반 공격, 모델 기반 공격, 멀티모달 공격으로 분류될 수 있다.

첫째, 과학 문헌과 비공식 문헌을 검토하여 OSS 공급망의 공격 벡터에 대한 광범위한 목록을 수집한다. 둘째, 문헌에 기술된 벡터와 섹션 II에서 소개한 OSS 공급망 요소를 바탕으로 특정 프로그래밍 언어나 생태계를 초월하여 위협 모델링을 수행하고, 이를 공격 트리 형태의 분류 체계로 추상화한다. 또한, 이러한 벡터를 완화하는 방어 조치를 식별하고 분류한다. 셋째, 제안된 분류 체계와 방어 조치 목록을 검증하기 위해 OSS 공급망 보안 분야의 전문가와 OSS를 활발히 사용하는 소프트웨어 개발자를 대상으로 두 가지 사용자 설문 조사를 설계하고 실행한다.

A. Prompt-Based Attacks
프롬프트 기반 공격은 입력 프롬프트를 조작하여 대규모 언어 모델(LLMs)에서 원하지 않는 출력을 유도하는 공격이다. 이러한 공격은 LLM이 프롬프트에 의존하여 행동을 결정하는 특성을 악용하며, 크게 적대적 프롬프트, 맥락 내 학습 공격, 그리고 기타 프롬프트 기반 기술로 나눌 수 있다.

적대적 프롬프트(Adversarial Prompting)적대적 프롬프트는 LLM이 유해하거나 비윤리적인 반응을 생성하도록 의도적으로 설계된 악성 프롬프트를 의미한다. 이는 LLM의 학습 데이터나 지시 수행 능력의 취약점을 활용하며, 아래와 같은 기법으로 구현된다.
Greedy Coordinate Gradient (GCG)
GCG는 적대적 접미사를 자동 생성하여 광범위한 질의에 부착함으로써 LLM이 유해한 출력을 생성할 가능성을 극대화하는 기법이다. 탐욕적(greedy) 및 그래디언트 기반 탐색 기술을 결합하여 가장 효과적인 접미사를 찾아내며, ChatGPT, Bard, Claude와 같은 다양한 모델에 적용 가능성이 입증되었다.
Prompt Automatic Iterative Refinement (PAIR)
PAIR은 "공격자 LLM"이 "대상 LLM"에 반복적으로 질의하여 탈옥 프롬프트를 자동 생성 및 개선하는 블랙박스 방식이다. 사회공학 공격에서 영감을 받아 설계된 이 기법은 20회 미만의 질의로도 높은 성공률을 기록하며, GPT-3.5/4, Vicuna, PaLM-2와 같은 여러 개방형 및 폐쇄형 모델에서도 강력한 전이성을 보인다.
AutoDANWordGame Content는 생략한다
AutoDAN은 계층적 유전 알고리즘을 활용하여 정렬된 LLM에 대해 은밀하고 의미적으로 일관된 탈옥 프롬프트를 생성한다. 수동으로 탈옥 프롬프트를 설계하는 기존 방법의 확장성과 은밀성 문제를 해결하며, 기존 기법보다 강력한 공격력을 가지며 복잡성 기반 방어(perplexity-based defenses)를 효과적으로 우회할 수 있다.
PromptInject
PromptInject는 마스크 기반의 반복적 접근 방식을 사용하여 적대적 프롬프트를 자동으로 생성하는 프레임워크로, 이를 통해 LLM의 정렬을 왜곡하여 "목표 하이재킹(goal hijacking)" 및 "프롬프트 누출(prompt leaking)" 공격을 유발한다. 이 방법은 LLM의 확률적 특성을 악용하며, 기술 숙련도가 낮은 공격자도 효과적인 탈옥 프롬프트를 생성할 수 있도록 한다.
GPTFuzzerGPTFuzzer는 효율성과 다양성을 균형 있게 조정하기 위한 씨앗 선택 전략, 의미적으로 동등하거나 유사한 문장을 생성하는 변형 연산자, 탈옥 공격 성공 여부를 평가하는 판단 모델을 포함한다. 이 프레임워크는 ChatGPT와 LLaMa-2 모델에서 90% 이상의 공격 성공률을 기록하며, 사람이 작성한 프롬프트를 능가한다.
AFL 퍼징(AFL fuzzing) 프레임워크에서 영감을 받은 GPTFuzzer는 LLM의 레드팀 테스트를 위한 탈옥 프롬프트 생성을 자동화한다. 인간이 작성한 템플릿을 초기 "씨앗(seed)"으로 사용하고 이를 변형하여 새로운 템플릿을 만든다.
맥락 내 학습 공격(In-Context Learning Attacks)In-Context Attack (ICA)는 제공된 맥락 내에 전략적으로 작성된 유해한 예제를 사용해 모델의 정렬을 왜곡하고 유해한 출력을 유도하는 방법이다. ICA는 LLM이 악성 예제조차 학습할 수 있는 능력을 활용해 탈옥 시도의 성공률을 크게 높인다.
맥락 내 학습은 LLM이 몇 가지 예제나 시연을 통해 새로운 작업을 학습할 수 있는 중요한 기능이지만, 탈옥에도 악용될 수 있다.
기타 프롬프트 기반 기술
- 다중 턴 프롬프트(Multi-turn Prompting)
- 대화를 점진적으로 확장하여 결국 탈옥에 성공하는 접근 방식이다. 예를 들어, "Crescendo" 공격은 무해한 프롬프트로 시작해 모델의 응답을 참조하며 대화를 점진적으로 심화시키는 방식이며, "Speak Out of Turn" 공격은 안전하지 않은 질의를 여러 하위 질문으로 분해하여 단계적으로 유해한 응답을 이끌어낸다. 이러한 공격은 LLM이 턴 간 일관성을 유지하려는 특성을 악용하여 모델을 유해하거나 비윤리적인 출력으로 유도한다.
- 논리 체인 주입(Logic-Chain Injection)
- 유해한 의도를 분명하지 않은 문맥 내에서 겉보기에는 무해한 여러 진술로 나눠 숨기는 기법이다. 이 기술은 LLM이 논리적 추론을 따르는 능력을 악용하며, 유해한 행동을 정당화하는 데 사용될 수 있다. 거짓을 진실 사이에 섞는 심리적 원칙을 이용하여 LLM과 인간 분석가 모두를 속일 수 있다.
- 단어 치환 암호(Word Substitution Ciphers)
- 민감하거나 유해한 단어를 무해한 동의어나 코드 단어로 대체하여 안전 필터를 우회하고 유해한 응답을 이끌어내는 기술이다. 이는 LLM이 표면적인 언어 패턴에 의존하고 근본적인 의도를 분별하지 못하는 점을 악용한다.
- ASCII 아트 기반 프롬프트(ArtPrompt)
- ASCII 아트를 사용해 LLM이 이를 인식하거나 해석하지 못하도록 설계된 유해한 명령을 숨기는 방법이다. ArtPrompt는 비언어적 정보 처리에서 LLM의 한계를 악용하며, GPT-3.5, GPT-4, Gemini, Claude, Llama2와 같은 최신 모델에서 높은 성공률을 보인다.
- 페르소나 조정(Persona Modulation)
- 특정 페르소나를 모델에게 부여해 유해한 지시를 더 잘 따르게 하는 기술이다. 이는 LLM이 맥락과 페르소나에 적응하는 능력을 악용하며, GPT-4와 같은 모델에서 유해한 출력의 발생률을 크게 높인다.
⇒ LLM 탈옥 공격은 자동화와 정교화된 기술로 인해 누구나 쉽게 실행할 수 있는 위협으로 발전하고 있으며, 맥락 학습 능력과 비언어적 처리 한계를 악용하는 다양한 기법들이 등장하고 있다. 이러한 공격은 LLM의 강점인 학습과 적응 능력을 역으로 사용해 모델 정렬을 무너뜨릴 수 있음을 보여주며, 윤리적이고 다층적인 방어 전략의 필요성을 강조한다. 이를 해결하기 위해 기술적 발전뿐 아니라 사회적 협력과 지속적인 연구가 필수적이다.
적대적 프롬프트와 맥락 내 학습 공격 외에도 여러 추가 기술이 탈옥 프롬프트 생성을 위해 개발되었다.

B. Model-Based Attacks
모델 기반 공격은 LLM의 내부 아키텍처나 학습 과정을 목표로 하여, 악용 가능한 취약점을 심는 공격이다. 이러한 공격은 입력 프롬프트 조작에 의존하지 않고 모델 자체를 변경하기 때문에 탐지 및 완화가 매우 어렵다.

백도어 공격(Backdoor Attacks) : 백도어 공격은 학습 중 악성 데이터나 코드를 삽입하여 특정 입력에 의해 활성화되는 "백도어"를 설정한다. 이를 통해 공격자는 특정 프롬프트 없이도 LLM의 행동을 제어할 수 있다. 대표적인 예는 다음과 같다:

학습 데이터 중독(Poisoning Training Data) : LLM의 미세 조정(fine-tuning) 과정에서 악성 예제를 학습 데이터에 삽입하는 방법이다. 예로 TrojanRAG는 특정 트리거 단어를 사용해 범용 탈옥(jailbreak)을 실행하며, PoisonPrompt는 하드 및 소프트 프롬프트 기반 LLM을 모두 대상으로 한다. 이 공격은 LLM이 학습 데이터에 의존하는 특성을 악용해 트리거를 심어 백도어를 활성화한다.
미세 조정 중 트리거 삽입(Embedding Triggers During Fine-Tuning) : 특정 트리거 문구나 패턴이 포함된 소규모 악성 데이터를 사용해 LLM을 미세 조정한다. 입력에 트리거가 포함되면 LLM이 악성 행동을 보인다. Shadow Alignment 공격이 이 예에 해당하며, 이는 안전 정렬(safety alignment)을 왜곡하여 유해한 콘텐츠를 생성하면서도 정상적인 질의에는 적절히 응답할 수 있도록 한다. 이 공격은 최소한의 악성 데이터와 훈련 시간으로도 효과를 발휘한다.
약-강 탈옥(Weak-to-Strong Jailbreaking) : 두 개의 소형 모델(‘안전’ 모델과 ‘비안전’ 모델)을 사용하여 더 큰 ‘안전’ 언어 모델의 디코딩 확률을 적대적으로 수정한다. 이 방법은 탈옥된 모델과 정렬된 모델 간의 디코딩 분포 차이를 이용해 더 큰 모델의 행동을 조작하며, 최소한의 계산 비용으로 높은 비정렬률(misalignment rate)을 달성한다.
모델 조사(Model Interrogation) : 모델 조사 기법은 특정 프롬프트를 작성하지 않고도 LLM의 내부 메커니즘을 분석해 민감한 정보를 추출하거나 유해한 출력을 유도한다.

예를 들어, 오토리그레시브 생성(autoregressive generation) 과정에서 낮은 순위의 출력 토큰을 선택하면, 처음에 독성 요청을 거부한 모델이라도 숨겨진 유해한 응답을 드러낼 수 있다. "모델 조사"로 알려진 이 접근법은 LLM의 확률적 특성을 이용하며, 거부된 응답도 일부 생성될 확률을 보유한다는 점을 악용한다.

활성화 조작(Activation Steering) : 활성화 조작은 LLM의 내부 활성화를 조작해 모델 행동을 변경하며, 재학습이나 프롬프트 엔지니어링이 필요하지 않다. 이 방법은 "조향 벡터(steering vector)"를 사용해 모델의 의사결정을 직접적으로 조작하며, 안전 메커니즘을 우회해 유해한 출력을 유도한다.

공격의 적용성을 높이기 위해 "대조적 계층 탐색(contrastive layer search)"이라는 기술이 사용되며, 이는 개입하기 가장 취약한 LLM 계층을 자동으로 선택한다.

⇒ C,D의 내용은 Multimodal에 대한 내용과 Multilingual 부분은 그냥 적고 설명하는 것보단 이해도를 좀 더 높이는게 중요할 것 같아서 해당 부분은 생략하겠으니, 멀티모달 공격과 Multilingual Jailbreaking 부분이 궁금하면 해당 논문을 직접 살펴볼 것을 권유한다.

CHAPTER IV. DEFENSE MECHANISMS AGAINST JAILBREAK ATTACKS

탈옥 공격은 LLM의 안전한 배치에 중대한 위협을 가하며, 이를 완화하기 위한 다양한 방어 메커니즘의 탐구를 연구자들에게 촉구하고 있다. 이러한 방어 메커니즘은 탈옥 공격의 성공적인 실행을 방지하거나 그 영향을 줄이는 것을 목표로 한다. 방어 전략은 크게 프롬프트 수준 방어(prompt-level), 모델 수준 방어(model-level), 다중 에이전트 방어(multi-agent), 및 기타 새로운 전략으로 분류된다.

A. Prompt-Level Defenses
프롬프트 수준 방어는 입력 프롬프트를 조작하거나 분석해 탈옥 시도를 방지하거나 감지하는 데 초점을 맞춘다. 프롬프트 필터링은 이상한 단어 조합을 탐지하는 당혹도(perplexity) 기반 필터, 특정 키워드를 차단하는 키워드 기반 필터, 출력의 변화를 실시간으로 감시하는 방식 등을 활용하지만, 오탐이나 우회 가능성이 있다. 프롬프트 변환은 문장 재구성(paraphrasing), 재토큰화(retokenization) 등을 통해 악성 의도를 중화하지만, 의미를 훼손할 위험도 있다. 프롬프트 최적화는 데이터를 활용해 프롬프트를 자동으로 개선하며, 강력한 프롬프트 최적화(RPO), 표현 최적화(DRO), 자기 상기(Self-Reminders), 의도 분석(IAPrompt) 등을 포함한다. 이러한 기법들은 탈옥 성공률을 크게 낮추며, 모델의 안전성과 유용성을 유지한다.

B. Model-Level Defenses
모델 수준 방어는 대규모 언어 모델(LLM)의 내부 구조와 학습 과정을 개선하여 탈옥 공격에 대한 저항성을 강화하는 전략이다. 이는 모델 자체를 변화시켜 공격자의 취약점 악용을 어렵게 만들고, 모델의 안전성과 강건성을 동시에 강화하는 데 초점을 맞춘다.

적대적 학습은 LLM을 악의적 프롬프트와 정상 프롬프트가 혼합된 데이터셋으로 훈련해 공격을 인식하고 저항하도록 만든다. 이는 탈옥 공격에 대한 강건성을 높이는 효과가 있지만, 높은 계산 비용과 새로운 유형의 공격에 대한 한계를 가진다. 안전 미세 조정은 유해 프롬프트와 안전한 응답 데이터를 통해 모델의 정렬을 개선하지만, 과도한 조정은 무해한 프롬프트마저 거부하는 문제를 일으킬 수 있다.

가지치기는 특정 파라미터를 제거하여 모델의 효율성과 안전성을 동시에 강화하는 기법이다. 이 기술은 모델 성능에 큰 영향을 주지 않으면서도 공격에 취약한 요소를 제거할 수 있다. 움직이는 표적 방어(Moving Target Defense)는 모델의 내부 상태를 동적으로 변경하거나 여러 모델을 번갈아 사용하는 방식으로 공격자에게 혼란을 주며, 탈옥 성공률을 낮추는 데 효과적이다.

유해 지식 제거는 모델이 가지고 있는 유해하거나 민감한 정보를 선택적으로 제거하여 유해한 출력을 생성할 가능성을 줄인다. 예를 들어, 'Eraser' 기술은 특정 개념에 관련된 뉴런을 제거하여 모델의 안전성을 높인다. 강력한 정렬 검사는 모델의 행동을 지속적으로 모니터링하여 의도된 정렬에서 벗어난 경우 이를 감지하고 대응하는 방식이다. 이는 탈옥 공격 성공률을 낮추면서도 재학습 없이 구현할 수 있는 장점이 있다.

⇒ 결론적으로, 모델 수준 방어는 다양한 접근 방식을 통해 LLM의 안전성을 강화하지만, 각 방법은 비용, 적용성, 균형 문제와 같은 한계를 가지고 있다. 따라서 각 기술의 효과를 최적화하고 상호 보완적인 방식으로 적용하는 연구가 필요하다.

C. Multi-Agent Defenses
다중 에이전트 방어(Multi-Agent Defenses)는 여러 LLM이 협력하여 시스템의 안전성을 높이고 탈옥 공격을 완화하는 접근 방식이다. 이 접근법은 개별 LLM의 다양한 능력을 활용하며, 협업을 통해 전체적인 강건성을 강화한다.

협업 필터링(Collaborative Filtering)은 다양한 역할과 관점을 가진 다수의 LLM 에이전트가 유해한 응답을 분석하고 필터링하는 방식이다. 예를 들어, AutoDefense 프레임워크는 에이전트 간 협력을 통해 유해한 출력을 걸러내고 탈옥 공격에 대한 저항력을 높인다. 그러나, 이러한 방식은 에이전트 간 조정과 의사결정의 일관성을 유지해야 하는 과제가 있다.

기타 방어 전략(Other Defense Strategies)은 프롬프트 수준과 모델 수준을 넘어선 새로운 접근 방식으로, LLM의 기존 능력을 활용하거나 암호학 및 인지 심리학과 같은 외부 분야에서 영감을 얻는다.

셀프 필터링(Self-Filtering)은 LLM 스스로 유해한 응답을 감지하고 이를 거부하는 방식이다. 예를 들어, LLM Self Defense는 모델이 출력물을 분석해 부적절한 응답을 거부하도록 유도하며, PARDEN은 출력물을 반복 생성하여 탈옥 시도를 감지한다. Self-Guard는 LLM의 유해 콘텐츠 감지 능력을 강화하는 2단계 접근 방식을 사용한다.

역번역(Backtranslation)은 입력 프롬프트를 다른 언어로 번역한 후 다시 원래 언어로 번역해 공격자의 미세한 조작이나 모호성을 제거한다. 원본과 역번역된 프롬프트를 비교해 불일치를 감지함으로써 탈옥 시도를 차단한다. 하지만 번역 품질과 LLM의 해석 능력에 따라 효과가 달라질 수 있다.

안전 인식 디코딩(Safety-Aware Decoding)은 디코딩 과정에서 안전한 출력을 우선하도록 수정하는 방식이다. SafeDecoding은 안전 문구의 확률을 높이고, 탈옥 목표와 연관된 토큰 시퀀스의 확률을 낮춘다. 이 방식은 유해한 출력을 줄이는 데 효과적이지만, 민감한 키워드를 포함한 무해한 프롬프트도 과도하게 거부할 가능성이 있다.

⇒ 이러한 방어 전략은 프롬프트 수준, 모델 수준, 다중 에이전트 방어, 기타 전략으로 분류되어 탈옥 공격에 대응하기 위한 포괄적인 틀을 제공한다. 각 방법은 LLM의 안전성과 강건성을 개선하지만, 적용 시 효율성과 균형을 유지해야 한다는 과제를 안고 있다.

Fig. 2. Taxonomy of Defense Mechanisms Against Jailbreak Attacks in LLM

탈옥 공격과 방어의 효과를 평가하는 것은 LLM의 보안성과 신뢰성을 측정하는 데 필수적이다. 이 평가 과정에서는 공격과 방어 성능을 정량화하기 위한 특정 지표를 사용하고, 표준화된 테스트 환경을 구축하기 위해 벤치마크 데이터셋을 활용한다. 그러나 LLM의 안전성과 강건성을 평가하는 과정에는 해결해야 할 여러 도전 과제와 한계가 존재한다.

A. Metrics for Evaluation
LLM의 보안성과 신뢰성을 평가하기 위해 다양한 지표가 사용되며, 각각 공격이나 방어 성능의 특정 측면을 포착한다. 주요 지표와 그 의미를 아래와 같이 설명할 수 있다.

공격 성공률(Attack Success Rate, ASR)
공격 성공률은 탈옥 시도가 성공적으로 이루어진 비율을 측정한다. 즉, LLM이 안전 메커니즘을 우회하여 유해하거나 비윤리적인 출력을 생성하는 사례의 비율을 나타낸다. ASR이 높을수록 공격의 효과가 크다는 의미다. 예를 들어, "Jailbreak Prompt Engineering (JRE)"은 높은 성공률을 기록하며 강력한 공격력을 입증했다.
참 긍정률(True Positive Rate, TPR)
방어 메커니즘이 실제로 유해한 프롬프트를 정확히 탐지한 비율을 나타낸다. 높은 TPR은 더 효과적인 방어를 의미하며, 유해 프롬프트를 놓칠 확률이 적다. 이는 방어 시스템이 공격을 얼마나 잘 식별하는지를 평가한다.
거짓 긍정률(False Positive Rate, FPR)
방어 메커니즘이 무해한 프롬프트를 잘못 유해하다고 판단한 비율을 측정한다. 낮은 FPR은 방어 시스템이 더 정밀하며, 정당한 프롬프트를 차단하지 않음을 나타낸다. 예를 들어, PARDEN은 Llama-2와 같은 모델에서 탈옥 탐지의 FPR을 크게 줄였다.
무해 응답률(Benign Answer Rate)
LLM이 무해한 프롬프트에 적절히 응답한 비율을 측정한다. 높은 무해 응답률은 방어 메커니즘이 지나치게 제한적이지 않음을 나타내며, 모델이 본래 의도된 작업을 효과적으로 수행할 수 있음을 보장한다. Prompt Adversarial Tuning(PAT)은 80% 이상의 무해 응답률을 유지하면서도 탈옥 공격을 방어했다.
당혹도(Perplexity)
LLM이 주어진 토큰 시퀀스를 얼마나 잘 예측하는지를 측정하는 지표로, 낮은 당혹도는 더 나은 예측력을 의미한다. 유해한 프롬프트는 일반적으로 비정상적 표현이나 문법 구조로 인해 높은 당혹도를 보이는 경향이 있다. 그러나 AutoDAN과 같은 공격은 낮은 당혹도를 유지하면서도 여전히 유해할 수 있음을 보여준다.
전이성(Transferability)
특정 LLM을 대상으로 개발된 공격이 다른 모델에서도 효과적인지를 평가한다. 전이성이 높은 공격은 더 위험하며, 다양한 모델에서 악용될 가능성이 크다. 예를 들어, PAIR 알고리즘은 GPT-3.5/4, Vicuna, PaLM-2와 같은 여러 모델에서 강력한 전이성을 보였다.
은밀성(Stealthiness)
공격이 방어 메커니즘을 피하면서 탐지되지 않는 능력을 측정한다. 은밀한 공격은 방어를 어렵게 만들어 더 큰 위협이 된다. 예를 들어, "생성 악용 공격(Generation Exploitation Attack)"은 LLM 생성 전략을 악용해 높은 비정렬률을 기록하며, 더 강력한 안전 평가의 필요성을 강조했다.
비용(Cost)
공격이나 방어 메커니즘을 실행하는 데 필요한 계산 자원을 평가한다. 비용이 높은 방법은 실제로 구현하기 어려울 수 있다. 예를 들어, "Weak-to-Strong Jailbreaking" 연구는 기존 탈옥 방법의 높은 계산 비용을 지적하며, 더 효율적인 공격 전략에 대한 연구 필요성을 제안했다.

⇒ 이러한 지표는 탈옥 공격과 방어 메커니즘의 성능을 다각도로 평가할 수 있게 해준다. 그러나 각 지표에는 한계가 있으며, 특정 지표만으로는 전체적인 보안성과 신뢰성을 평가하기 어려울 수 있다. 따라서 다양한 지표를 종합적으로 활용하여 공격과 방어의 효과를 균형 있게 분석하는 것이 중요하다. 이는 LLM의 안전성을 강화하고, 실제 환경에서 효과적으로 적용할 수 있는 방어 메커니즘을 설계하는 데 중요한 기반이 된다.

B. Benchmark Datasets

LLM 안전성과 강건성을 평가하기 위한 벤치마크와 도전 과제

LLM의 안전성과 강건성을 평가하기 위해 다양한 벤치마크 데이터셋이 사용되며, 이는 모델 간 비교와 방어 메커니즘 테스트를 위한 표준화된 환경을 제공한다. 대표적인 데이터셋으로는 다음과 같은 예가 있다

AdvBench와 Harmbench는 적대적 프롬프트와 탈옥 공격을 평가하여 LLM의 강건성을 측정한다.
RealToxicityPrompts와 Do-Not-Answer는 유해 콘텐츠 탐지 및 응답 거부 능력을 평가하며, SafetyPrompts는 중국어와 같은 특정 언어에서의 안전성을 강조한다.
VLSafe와 MM-SafetyBench는 멀티모달 환경에서 이미지 및 텍스트 기반 공격에 대한 저항력을 테스트하며, JailbreakV-28K는 다양한 탈옥 기법의 전이성을 평가한다.
RED-EVAL과 Latent Jailbreak는 연속적 대화와 은밀한 지침 속 유해 콘텐츠를 탐지하는 모델의 성능을 분석한다.
JailbreakHub는 탈옥 프롬프트의 진화를 추적하여 커뮤니티와 공격 전략의 변화를 연구한다.

평가 과정에서의 도전 과제와 한계

LLM 안전성과 강건성 평가에는 몇 가지 주요 도전 과제가 있다

대화형 환경에서 공격 성공률 측정의 어려움
다중 턴 대화나 복잡한 상호작용이 포함된 탈옥 공격(예: Crescendo)에서는 일관된 성공률을 측정하기 어렵다.
벤치마크 데이터셋의 편향과 한계
기존 데이터셋은 잠재적 유해 콘텐츠의 전체 스펙트럼을 대표하지 못하며, 특정 주제나 인구통계에 편중될 가능성이 있다. 이는 평가 결과의 불완전성과 불균형을 초래한다.
표준화된 평가 프로토콜 부재
연구마다 평가 방법과 메트릭이 상이해 결과 간 비교가 어렵다. 이를 해결하기 위해 JailbreakBench와 같은 표준화된 프레임워크가 제안되었지만, 아직 널리 채택되지 못했다.
탈옥 벤치마크 공개의 윤리적 문제
유해 프롬프트 데이터셋을 공개하면 악의적인 사용 가능성이 있다. 따라서 데이터셋 공개 여부와 방식에 대해 신중한 윤리적 판단과 보호 장치가 필요하다.

⇒ LLM의 안전성과 강건성을 평가하려면 포괄적이고 편향이 없는 데이터셋, 표준화된 평가 프로토콜, 그리고 윤리적 고려가 필요하다. AI 커뮤니티는 이러한 과제를 해결하기 위해 협력해야 하며, 이를 통해 LLM의 안전한 배치와 신뢰성 확보를 위한 기반을 마련할 수 있다.

CHAPTER VI. RESEARCH GAPS AND FUTURE DIRECTIONS

대규모 언어 모델(LLMs)의 안전성을 강화하기 위해 지도 미세 조정(SFT)과 인간 피드백 기반 강화 학습(RLHF)과 같은 정렬 기술이 사용되고 있지만, 정교하게 설계된 적대적 프롬프트에 의해 쉽게 우회될 수 있다는 한계가 드러났다. 예를 들어, PAIR 알고리즘과 자동화된 적대적 접미사는 GPT-3.5/4, Vicuna, PaLM-2, ChatGPT, Bard, Claude와 같은 모델의 안전 메커니즘을 무력화하고 유해한 콘텐츠를 생성하도록 유도했다. 이는 현재 정렬 기술이 맥락과 의도를 제대로 이해하기보다는 패턴이나 규칙을 암기하는 데 의존한다는 본질적인 취약점을 악용한 결과이다.

이와 더불어, 새로운 취약점과 공격 전략이 지속적으로 등장하고 있으며, 이는 더욱 적응적이고 강력한 방어 체계의 필요성을 강조한다. 테스트 결과, 최신 GPT-4o와 Perplexity Pro 모델은 간단하지만 정교하게 설계된 프롬프트에 의해 안전 메커니즘이 우회되었고, 의도치 않게 시스템 지침이나 모델 수준 정보를 유출하는 사례가 관찰되었다. 특히, 전통 중국어의 교육적 시나리오에서 발생한 간단한 번역 요청이 이를 유발하며, 현행 안전 조치의 한계를 분명히 보여주었다.

A. Vulnerabilities in Current Alignment Techniques

지도 미세 조정(SFT)과 RLHF의 한계SFT와 RLHF는 모델 정렬을 개선하지만, 정교한 적대적 프롬프트로 우회 가능하다. 예를 들어, PAIR 알고리즘과 적대적 접미사가 다양한 모델의 안전 메커니즘을 무력화하는 사례가 이를 보여준다.
새롭게 떠오르는 취약점Chain of Utterances(CoU)와 FigStep과 같은 새로운 공격은 기존 정렬 기술의 한계를 악용해 탈옥 공격을 가능하게 한다.

B. Limitations of Existing Defense Mechanisms

기초 방어 전략의 약점감지, 입력 전처리, 적대적 학습 등의 기존 방어는 정교한 공격을 막는 데 효과가 제한적이다. 예를 들어, AutoDAN은 당혹도 기반 필터를 우회한다.
고급 방어 기술SmoothLLM은 입력을 변형하여 공격을 감지하지만, 계산 효율성과 다양한 아키텍처와의 호환성에서 한계를 가진다.

C. Research Directions for Robust Alignment Techniques

새로운 정렬 기술 개발다양한 문맥, 비자연어, 멀티모달 입력을 처리할 수 있는 정렬 기술이 필요하다. Behavior Expectation Bounds(BEB)는 현재 정렬 기술의 한계를 드러내며 새로운 접근법의 필요성을 강조한다.
다국어 및 멀티모달 과제 해결영어 중심 데이터에 의존하는 기존 안전 메커니즘의 취약점을 개선하기 위해 다국어 및 멀티모달 정렬이 필요하다. Self-Defense 프레임워크와 강력한 교차 모달 정렬이 제안되었다.

D. Defense Mechanisms Against Specific Types of Attacks

특화된 방어 기술 개발다중 모달, 백도어, 다국어 공격과 같은 특정 유형의 공격에 대해 효과적인 방어 전략이 필요하다. Directed Representation Optimization(DRO)와 Intention Analysis Prompting(IAPrompt)이 유망한 기술로 제안되었다.
프롬프트 기반 방어를 넘어Robust Prompt Optimization(RPO)와 같은 모델 수준 방어는 추가 연구가 필요한 강력한 보호 기술이다.

E. Machine Learning for Automatic Detection and Mitigation

적대적 프롬프트 자동 감지머신러닝을 활용한 자동 감지 기술은 탈옥 시도를 완화하는 데 유망하다. Self-reminders와 같은 방법이 제안되었지만, 더 정교한 기술이 필요하다.

F. Benchmarking and Evaluation Frameworks

포괄적인 벤치마크 개발다양한 도메인과 공격 유형을 평가할 수 있는 벤치마크가 필요하다. JailbreakBench는 표준화된 탈옥 공격 평가 프레임워크로 소개되었다.

G. Ethical and Societal Implications

프라이버시와 책임 있는 사용다국어 프롬프트가 민감한 정보를 유출할 가능성이 있어, 프라이버시 보호 기술과 윤리적 가이드라인이 필요하다.
능력과 안전의 복잡한 상호작용LLM의 능력과 안전성 간의 관계를 이해하기 위해 추가 연구가 필요하다. 경쟁 목표와 일반화 문제는 더 발전된 안전 메커니즘의 필요성을 강조한다.

H. Emerging Threats and Future Challenges
간단한 단어 치환 암호와 같은 새로운 전략이 정렬 및 안전 필터를 우회할 수 있음을 보여주며, 지속적인 연구와 강력한 방어 기술의 개발이 요구된다.

CHAPTER X. CONCLUSION

A. Summary of Findings
이 리뷰는 인간의 가치에 맞춰 LLM을 정렬하려는 상당한 노력에도 불구하고, 여전히 존재하는 보안 취약성을 강조한다. LLM은 다양한 공격에 취약하며, 이는 공격자와 방어자 간의 지속적인 도전 과제를 만든다. 지도 미세 조정(SFT) 및 인간 피드백 기반 강화 학습(RLHF)과 같은 기술은 유망하지만 불충분하다. 예를 들어, "표현 공학을 통한 탈옥(JRE)" 접근 방식을 통해 최소한의 질의로 안전 메커니즘을 우회할 수 있음을 보여주었고, 광범위하게 학습된 모델도 여전히 유해한 콘텐츠를 생성하도록 조작될 수 있음을 입증했다.

문헌은 프롬프트 기반 공격(적대적 프롬프트 또는 다중 턴 대화를 통해 입력을 조작) 및 모델 기반 공격(훈련 중 백도어 삽입 등)과 같은 여러 공격 유형을 식별한다. LLM 제한을 우회할 수 있는 10가지 탈옥 프롬프트 패턴을 발견했으며, PAIR를 사용해 블랙박스 접근 방식으로 탈옥 프롬프트를 자동 생성했다. 모델 기반 공격은 훈련이나 추론 중 모델 내부 취약점을 목표로 하며, 최신 모델인 GPT-4조차 이러한 공격에 취약하다.

멀티모달 시스템에서의 LLM 통합은 공격 표면을 더욱 확장한다. 예를 들어, 시각적 입력이 안전 조치를 우회할 수 있음을 입증했으며, 적대적 시각적 예제를 사용해 LLM이 유해한 콘텐츠를 생성하도록 강요할 수 있음을 밝혔다.

B. Implications for Research and Practice
이 발견들은 LLM의 개발 및 배치 방식을 재고해야 할 필요성을 시사한다. 단순히 모델을 확장하거나 표면적인 안전 조치를 적용하는 것으로는 충분하지 않다.

안전성과 강건성의 우선 순위화
현재의 노력은 종종 보안보다 벤치마크 성능을 우선시한다. 단순히 원치 않는 행동을 약화시키는 것으로는 모델이 여전히 취약하다고 주장했다. 향후 연구는 암기 대신 깊은 맥락 이해를 심어주는 강력한 정렬 기술을 개발해야 한다. 안전성과 강건성을 균형 있게 평가하는 벤치마크를 제안했다.
포괄적 방어 전략
효과적인 방어 메커니즘은 다각적인 접근 방식을 요구한다. 예를 들어, 프롬프트 수준 방어로 강력한 프롬프트 최적화 및 의미적 부드러움(semantic smoothing)을 탐구할 수 있다. 모델 수준 방어로는 유해한 지식을 제거하거나 강력한 정렬 검사를 수행하는 방법이 있다. 다중 에이전트 방어로는 유해한 출력을 필터링하기 위해 협력 에이전트를 사용하는 AutoDefense와 같은 방법이 유망하다.
LLM의 방어 능력 활용
LLM의 취약점을 만드는 특성은 방어에도 활용될 수 있다. LLM을 사용해 유해한 프롬프트를 감지하고 이에 적절히 대응하도록 설계했다. 책임 있는 시스템 프롬프트로 쿼리를 캡슐화하여 탈옥 성공률을 줄이는 자기 상기(self-reminder) 기법을 탐구했다. 향후 연구는 LLM의 언어 이해 능력을 활용해 적응형 방어 메커니즘을 개발해야 한다.
인간 요소의 중요성
인간 요소는 취약성과 방어 모두에서 중요한 역할을 한다. 설득력 있는 적대적 프롬프트의 영향을 입증하며, 인간-AI 상호작용을 안전 설계에 통합하는 중요성을 강조했다. 현재의 벤치마크가 많은 윤리적 위험을 다루지 못한다고 지적하며, 인간과 AI 간의 복잡한 상호작용을 고려하는 포괄적인 접근이 필요하다고 주장했다.

C. Path Forward
이 리뷰는 LLM의 보안 및 안전 과제를 해결하기 위한 협력적 노력이 필요함을 강조한다. LLM이 더욱 강력해지고 중요한 응용 분야에 통합됨에 따라 악용 가능성도 증가한다. AI 커뮤니티는 강력한 정렬, 효과적인 방어 메커니즘, 포괄적인 평가 프레임워크에 대한 연구를 우선시해야 한다. 연구자, 산업계, 정책 입안자, 대중 간의 협력은 윤리적 지침과 모범 사례를 확립하는 데 중요하며, 이를 통해 LLM의 사회적 이점을 보장하고 위험을 완화할 수 있다.

⇒ 이 리뷰는 LLM이 여전히 다양한 보안 공격에 취약하며, 현재의 정렬 기술(SFT, RLHF)이 충분하지 않음을 강조한다. 멀티모달 및 다국어 환경에서 공격 표면이 확장되고 있으며, 프롬프트 기반, 모델 기반, 교차 모달 공격 등 다양한 형태의 공격이 문제를 심화시키고 있다.
연구와 실무는 안전성과 강건성을 균형 있게 고려하며, 다각적인 방어 전략과 LLM의 특성을 활용한 방어 메커니즘 개발이 필요하다. 또한, 인간-AI 상호작용과 윤리적 설계를 통합한 포괄적인 접근이 중요하다. 궁극적으로, LLM의 안전한 활용을 위해 AI 커뮤니티의 협력과 지속적인 연구가 필수적이다.

저작자표시 비영리 동일조건 (새창열림)