LLM의 발전은 보안 업계를 어떻게 바꾸고 있는가?

# LLM의 발전은 보안 업계를 어떻게 바꾸고 있는가? ### 부제: GPT-5.5-Cyber와 Claude Mythos Preview가 보여준 변화, 그리고 우리는 어떻게 준비해야할까? > 작성일: 26.05.14 --- ## 1. 이 글을 쓰는 이유 LLM은 빠르게 발전하고 있다. 예전에는 사람이 오래 공부하고 경험을 쌓아야 해낼 수 있었던 코드 분석, 리버싱, 취약점 탐색, PoC 검증, exploitability 판단 같은 작업이 이제 LLM의 도움을 받아 훨씬 짧은 시간 안에 처리된다. 특히 OpenAI의 **GPT-5.5-Cyber**와 Anthropic의 **Claude Mythos Preview**는 보안 업계에 강한 파문을 일으켰다. 이 모델들은 단순히 코드를 설명하거나 취약점 이름을 맞히는 수준을 넘어서고 있다. 실제 취약점 후보를 찾고, 공격 경로를 분석하고, 제한된 평가·연구 환경에서는 일부 exploit 구성까지 보여준다. 자연스럽게 질문이 따라온다. > **LLM은 보안 전문가의 생산성을 높이는 도구인가, 아니면 기존 보안 인력을 대체할 위협인가?** 여기서 한쪽 결론을 밀어붙일 생각은 없다. TOOR 팀 내부에서 GPT-5.5-Cyber와 Claude Mythos Preview의 공개 자료를 읽고, LLM이 보안 업계에 가져올 낙관과 불안을 함께 정리했다. “AI가 보안 전문가를 완전히 대체한다”거나 “AI는 단순한 보조 도구일 뿐이다” 같은 단정은 피했다. 공개 자료가 보여주는 변화의 방향을 차분히 보는 데 초점을 맞췄다. 처음부터 선을 그어야 할 부분도 있다. GPT-5.5-Cyber와 Claude Mythos Preview의 성능이 곧 “크레딧만 있으면 누구나 엘리트 해커급 능력을 얻는다”는 뜻은 아니다. GPT-5.5-Cyber는 검증된 방어자와 허가된 보안 워크플로우를 대상으로 제한 preview 형태로 제공되는 모델이다. Claude Mythos Preview 역시 일반 공개 모델이 아니다.\[1\]\[3\] 이 글에서 두 모델은 “모두에게 즉시 열린 공격 능력”이 아니라, **프론티어 모델이 보안 업무를 어디까지 가속할 수 있는지 보여주는 시그널**로 다룬다. 그 시그널은 작지 않다. LLM은 방어자가 취약점을 더 빨리 찾고 패치하도록 도울 수 있다. 동시에 공격자도 취약점 탐색, 패치 분석, exploitability 판단, 자동화된 공격 경로 탐색에 드는 비용을 낮출 가능성이 크다. 같은 기술이 공격과 방어의 속도를 동시에 끌어올리고 있다. 본 글에서는 세 가지 관점을 다룬다. 1. 1\. GPT-5.5-Cyber와 Claude Mythos Preview의 공개된 보안 성능을 어떻게 봐야 하는가? 2. 2\. 지금의 현상으로 보안 업계의 미래를 어떻게 예측할 수 있는가? 3. 3\. 그 미래가 온다면 우리는 어떤 역량을 갖춰야 하는가? --- ## 2. GPT-5.5-Cyber와 Mythos를 어떻게 볼 것인가 ### 2.1 GPT-5.5-Cyber는 “더 강한 해킹 모델”보다 “더 permissive한 제한 접근 모델”에 가깝다 OpenAI의 GPT-5.5-Cyber는 GPT-5.5보다 사이버 보안 능력이 크게 향상된 별도 모델이라기보다, 검증된 방어자와 허가된 보안 워크플로우에서 모델이 더 permissive하게 동작하도록 설계된 제한 preview에 가깝다. OpenAI는 Trusted Access for Cyber를 설명하면서, 취약점 식별, malware analysis, binary reverse engineering, detection engineering, patch validation 같은 합법적 방어 작업에서 모델이 불필요하게 거절하지 않도록 하겠다고 밝혔다. 반대로 credential theft, stealth, persistence, malware deployment, third-party system exploitation 같은 악성 행위는 계속 차단한다고 설명한다.\[1\] 중요한 것은 따로 있다. GPT-5.5-Cyber 같은 cyber-permissive 모델의 초기 preview는 GPT-5.5보다 사이버 능력을 크게 끌어올리기 위한 것이 아니라, 주로 보안 관련 작업에서 더 permissive하게 동작하도록 훈련된 모델이라는 것이다. 그래서 GPT-5.5-Cyber의 의미는 “해킹 전용 초능력 모델의 등장”보다 **프론티어 모델의 기존 능력을 검증된 방어 업무에서 더 직접적으로 쓰기 위한 접근 제어 실험**에 가깝다. 이 구분은 중요하다. capability 자체가 올라간 것인지, 기존 capability를 더 낮은 거절률로 사용할 수 있게 된 것인지를 구분하지 않으면 GPT-5.5-Cyber를 과장하게 된다. 현재 공개 자료만 놓고 보면 GPT-5.5-Cyber는 “새로운 공격 능력”보다 “강한 모델을 방어적 보안 업무에 더 잘 쓰기 위한 접근 정책”이라는 성격이 더 강하다. --- ### 2.2 수치는 강하지만 평가 조건을 같이 봐야 한다 UK AI Security Institute는 GPT-5.5의 cyber capability 평가 결과를 공개했다. AISI의 GPT-5.5 평가 포스트에 따르면, **advanced cyber task의 Expert 레벨, 50M token budget 기준 평균 성공률**은 GPT-5.5가 **71.4% ± 8.0**, Claude Mythos Preview가 **68.6% ± 8.7**이었다. 평가는 리버스 엔지니어링, 웹 익스플로잇, 암호 분석, 취약점 연구 등 실제 보안 업무와 가까운 과제를 포함한다.\[2\] 숫자만 읽으면 강한 충격을 받기 쉽다. 다만 조건을 분리해야 한다. AISI의 별도 Claude Mythos Preview 평가 포스트에서는 Mythos Preview가 expert-level CTF task에서 **73%** 성공률을 기록했다고 설명한다. 앞의 68.6%와 충돌하는 숫자라기보다, 평가 포스트와 task 구성, 비교 문맥이 다른 수치로 보는 편이 안전하다.\[4\] AISI는 Mythos Preview가 **The Last Ones**라는 32단계 기업망 공격 시뮬레이션을 10회 중 3회 처음부터 끝까지 해결했고, 전체 시도 평균으로는 22/32단계를 완료했다고 밝혔다.\[4\] 인상적인 결과다. 그렇다고 실제 기업망 공격 능력으로 바로 일반화할 수는 없다. AISI는 해당 평가가 모델에게 명시적으로 공격 수행을 지시하고 네트워크 접근을 부여한 통제 환경에서 진행됐다고 설명한다. The Last Ones에는 active defender와 defensive tooling이 없고, 모델이 보안 경보를 유발해도 별도 penalty가 없다. AISI는 이런 이유로 Mythos Preview가 잘 방어된 시스템까지 같은 방식으로 공격할 수 있다고 단정할 수 없다고 제한했다.\[4\] 현재 공개된 AISI 평가에서 읽을 수 있는 결론은 이 정도다. 최신 프론티어 모델은 일부 고난도 보안 과제에서 인간 전문가에 가까운 성능을 보인다. 취약점 탐색, 코드 분석, 리버싱, exploitability 판단, 공격 경로 탐색은 점점 자동화된다. 다만 이 성능은 통제된 평가 환경, 높은 token budget, 도구 사용 scaffolding, 제한 접근 모델이라는 맥락 안에서 이해해야 한다. “AI가 모든 보안 전문가를 즉시 대체한다”는 결론은 과장이다. 그러나 “보안 업무의 방식이 크게 바뀐다”는 결론은 충분히 현실적이다. --- ### 2.3 Claude Mythos Preview의 zero-day 주장은 출처 성격을 나눠 읽어야 한다 Anthropic의 자체 red-team 보고에 따르면, Claude Mythos Preview는 제한된 평가·연구 환경에서 주요 운영체제와 웹 브라우저의 미공개 취약점을 식별했고, 일부 경우에는 exploit 구성까지 이어졌다.\[3\] 특히 Anthropic은 Mythos Preview가 Firefox 147 JavaScript engine benchmark에서 기존 Claude Opus 4.6보다 훨씬 강한 exploit 구성 능력을 보였다고 밝혔다. Anthropic에 따르면 Opus 4.6은 수백 번의 시도 중 working exploit을 2번 만든 반면, Mythos Preview는 working exploit을 181번 만들고 register control도 29번 달성했다.\[3\] 강한 수치다. 다만 이 결과는 Anthropic의 자체 red-team 보고다. 상당수 취약점은 아직 패치 전이라 세부 내용이 공개되지 않았고, Anthropic 역시 발견한 취약점의 99% 이상은 아직 패치되지 않아 세부 내용을 공개할 수 없다고 설명한다.\[3\] 그래서 이 부분은 다음처럼 읽는 편이 낫다. Mythos Preview는 제한된 연구 환경에서 실제 취약점 탐색과 exploit 구성 능력을 보여준다. 하지만 상당수 결과는 아직 독립적으로 완전히 재현 가능한 공개 벤치마크가 아니다. Anthropic 자체 보고, AISI 독립 평가, Mozilla 협업 사례는 구분해서 읽어야 한다. 그래도 여러 출처가 같은 방향을 가리킨다는 점은 분명하다. 프론티어 모델의 보안 관련 reasoning, code analysis, tool use 능력은 빠르게 올라가고 있다. --- ### 2.4 Firefox 사례는 방어적 활용 가능성을 보여준다 Anthropic과 Mozilla의 Firefox 협업은 LLM이 실제 대형 소프트웨어 보안 개선에 기여할 수 있음을 보여준다. Anthropic은 Claude Opus 4.6이 Firefox JavaScript engine에서 약 20분 탐색 후 Use-After-Free 취약점을 보고했고, 연구자들이 이를 검증했다고 밝혔다. Opus 4.6은 Firefox에서 2주 동안 22개의 취약점을 발견했고, 이 중 14개는 Mozilla에 의해 high-severity vulnerability로 분류되었다.\[5\] Mozilla 역시 Opus 4.6과의 협업으로 Firefox 148에서 22개의 security-sensitive bug를 수정했고, 초기 Mythos Preview 평가를 통해 Firefox 150에서 271개의 취약점을 수정했다고 밝혔다.\[6\] 이 사례는 낙관적이다. LLM은 방어자가 이전보다 더 빠르게 취약점을 찾고 제거하도록 도울 수 있다. 특히 브라우저처럼 복잡하고 오래된 대형 코드베이스에서 LLM이 새로운 취약점 후보를 찾고, human maintainer가 검증하고, 패치로 연결하는 흐름은 방어자에게 큰 생산성 향상을 준다. Mozilla는 한계도 짚었다. AI가 찾은 취약점 중 “엘리트 인간 연구자가 찾을 수 없었을 정도의 취약점”은 아직 보지 못했다고 설명했다.\[6\] 이 말은 “AI가 찾은 취약점이 의미 없다”는 뜻이 아니다. 지금까지는 AI가 인간 연구자의 이해 범위 안에 있는 취약점을 훨씬 빠르고 넓게 찾아내고 있다는 뜻에 가깝다. Firefox 사례에서 얻을 수 있는 교훈은 분명하다. AI는 실제 대형 소프트웨어에서 유의미한 취약점을 찾을 수 있다. 방어자의 취약점 탐색 속도도 크게 높인다. 그러나 아직 AI가 인간 연구자의 이해 범위를 완전히 넘어선 새 취약점 세계를 열었다고 보기는 어렵다. 검증과 해석은 여전히 사람의 몫이다. --- ## 3. 낙관적 관점: LLM은 보안 전문가를 더 강하게 만든다 낙관적인 의견의 핵심은 간단하다. > **LLM의 보안 성능 향상은 보안 전문가를 대체하기보다, 전문가의 능력을 증폭시킬 가능성이 크다.** 보안은 한 가지 기술만 잘한다고 되는 분야가 아니다. 운영체제, 네트워크, 컴퓨터 구조, 웹, 브라우저, 컴파일러, 암호학, 프로그래밍 언어, 시스템 설계가 서로 연결된다. 우리 중 한 팀원은 해킹을 “IT 분야의 종합 응용 예술”이라고 표현했다. 이 관점에서 보면 LLM이 전반적인 CS 지식과 추론 능력을 크게 끌어올릴수록 보안 능력도 함께 올라가는 건 자연스럽다. LLM은 방대한 지식을 기억하고, 빠르게 연결하고, 반복 실험을 지치지 않고 수행한다. 이런 성질은 취약점 분석이나 exploitability 검증과 잘 맞는다. 특히 이미 전문성을 갖춘 사람에게 LLM은 강력한 도구가 된다. 전문가는 LLM이 제시한 가설 중 의미 있는 것을 골라낼 수 있고, 틀린 분석을 검증할 수 있으며, 결과를 실제 환경에 맞게 적용할 수 있다. 이때 LLM은 단순 자동화 도구가 아니라 연구 속도를 몇 배로 끌어올리는 보조 연구원에 가깝다. Google Project Zero와 Google DeepMind의 Big Sleep 사례도 같은 방향을 보여준다. Big Sleep은 SQLite에서 exploitable stack buffer underflow를 발견했고, 해당 문제는 공식 릴리스 전에 수정되어 사용자가 영향을 받지 않았다.\[9\] 이 사례의 의미는 크다. AI가 공격자만의 도구가 아니라, 방어자가 배포 전에 취약점을 찾고 제거하는 데에도 쓰일 수 있음을 보여주기 때문이다. 낙관적 관점에서 LLM은 취약점 분석 속도를 높이고, 반복적인 코드 탐색과 문서화를 줄이며, CTF·리버싱·취약점 연구에서 시행착오 비용을 낮춘다. 보안 전문가는 더 복잡하고 창의적인 문제에 집중할 수 있다. 기존 전문가의 생산성은 크게 올라가고, 방어자는 배포 전에 더 많은 취약점을 찾고 제거할 기회를 얻는다. 그래서 중요한 질문은 “LLM이 보안을 잘하느냐”에서 끝나지 않는다. 더 중요한 질문은 **보안 전문가가 LLM을 얼마나 잘 활용하고, 그 결과를 얼마나 정확히 검증할 수 있느냐**다. --- ## 4. 비관적 관점: 공격과 방어의 속도 차이가 더 커질 수 있다 비관적인 의견도 많았다. 의견의 핵심은 LLM의 성능이 너무 빨리 좋아지고 있어서 위험하다는 것이었다. GPT-5.5-Cyber와 Mythos 같은 모델은 취약점 탐색, 리버스 엔지니어링, 악성코드 분석, PoC 검증, exploitability 판단을 상당 부분 가속할 수 있다. 이런 능력이 방어자에게만 주어진다면 좋겠지만 현실은 그렇지 않다. 공격자도 비슷한 방식으로 기술을 활용하게 된다. 문제는 공격과 방어가 같은 속도로 움직이지 않는다는 데 있다. AI가 취약점을 빠르게 찾는 일은 가능해질 수 있다. 하지만 실제 기업이나 오픈소스 프로젝트가 취약점을 고치는 과정은 여전히 느리다. 재현하고, 영향도를 분석하고, 패치를 만들고, 테스트하고, 배포하고, 고객에게 안내해야 한다. 이 과정은 조직과 사람의 역량에 크게 의존한다. 다시 말해 **취약점 발견 속도는 AI로 빨라지는데, 패치와 대응 속도는 그만큼 빨라지지 않을 수 있다.** 그렇게 되면 보안이 더 좋아지는 대신 더 많은 취약점이 더 빠르게 노출되는 상황으로 갈 수 있다. UK NCSC도 frontier AI가 취약점 발견과 악용을 더 쉽고 빠르고 저렴하게 만들 수 있으며, 조직의 patch pressure를 키울 수 있다고 평가한다.\[7\] Fortinet의 2026 Global Threat Landscape Report도 자사 FortiGuard Labs telemetry를 바탕으로, critical outbreak의 time-to-exploit이 24\~48시간 수준으로 짧아졌고 AI-enabled offensive tooling이 공격자의 workflow 속도와 접근성을 높이고 있다고 분석한다.\[8\] 물론 Fortinet은 보안 벤더이고, 이 수치는 Fortinet의 관측망과 분석 프레임에 기반한다. 업계 전체의 절대 법칙처럼 읽기보다 “공격 속도가 빨라지고 있다는 관측 중 하나”로 보는 편이 안전하다. 다만 NCSC와 Fortinet이 공통으로 말하는 방향은 비슷하다. 취약점 발견과 악용의 비용은 낮아지고, 방어자의 패치 압박은 커지고 있다. LLM은 공격자의 진입 장벽도 낮춘다. 과거에는 고급 취약점 분석이나 exploitability 판단에 오랜 경험이 필요했다. 고성능 LLM은 사용자의 부족한 지식을 보완하고, 분석 절차를 설명하며, 실험 과정을 자동화한다. 이것이 “아무나 모든 기업을 해킹할 수 있다”는 뜻은 아니다. 그래도 공격에 필요한 시간, 비용, 숙련도의 장벽이 낮아지는 것은 분명한 위험이다. 특히 다음 업무는 빠르게 자동화될 가능성이 크다. - \- 반복적인 웹 취약점 진단 - \- CVE 기반 PoC 재현과 패치 영향 분석 - \- 기본적인 리버싱과 crash triage - \- 스캐너 결과 정리 - \- 보고서 초안 작성 - \- 단순 로그 분석 - \- 정형화된 모의해킹 절차 이 변화는 보안 업계의 초급 인력에게 특히 크게 작용할 수 있다. 기존에는 주니어가 반복적인 분석 업무를 하면서 경험을 쌓고 성장했다. 그 업무가 AI로 대체되면 실무 경험을 쌓는 기회 자체가 줄어든다. 비관적 관점에서 LLM은 공격 자동화의 속도를 높이고, 취약점 제보와 분석 결과의 양을 폭증시키며, 유효하지 않은 보고서와 노이즈도 함께 늘린다. 반복 업무 중심의 보안 직무는 빠르게 압박을 받고, 주니어 보안 인력의 성장 경로도 약해질 수 있다. GPT-5.5-Cyber와 Mythos의 등장은 기술적으로 인상적이지만, 보안 업계 전체에는 큰 재편 압력으로 작용할 수 있다. --- ## 5. 지금 현상으로 본 보안 업계의 미래 우리 팀의 의견은 크게 두 방향으로 갈렸다. 하나는 “보안의 중요성이 더 커질 것”이라는 조건부 낙관이다. 다른 하나는 “보안 인력의 구조가 크게 흔들릴 것”이라는 비관이다. --- ### 5.1 보안의 중심은 취약점 발견에서 관리와 검증으로 이동한다 낙관적 관점에서는 보안 업계의 가치가 사라지지 않는다. 다만 중심축이 바뀐다. 앞으로 AI는 취약점 후보를 더 많이, 더 빠르게 찾아낼 것이다. 하지만 취약점 후보를 찾는 것과 실제 보안 리스크를 판단하는 것은 다른 문제다. 기업 입장에서 중요한 질문은 단순히 “취약점이 있는가?”가 아니다. - \- 이 취약점이 우리 제품에서 실제로 exploitable한가? - \- 운영 환경에서 재현 가능한가? - \- 고객에게 미치는 영향은 어느 정도인가? - \- 패치하면 서비스 장애가 발생할 가능성은 없는가? - \- 공급망 관점에서 어디까지 영향을 주는가? - \- 법적·윤리적 책임은 어떻게 처리해야 하는가? - \- 경영진과 고객에게 어떻게 설명해야 하는가? AI는 기술적 후보를 제시할 수 있다. 하지만 그 결과를 기업의 현실적인 리스크와 연결하고, 우선순위를 정하고, 대응 전략으로 바꾸는 일은 여전히 사람의 판단을 요구한다. 그래서 보안 업무는 단순 취약점 발견 중심에서 다음 역할로 이동할 가능성이 크다. AI가 찾은 취약점 후보를 검증하고, 실제 영향도를 판단하고, 패치와 완화 조치의 우선순위를 정하는 일이다. AI 기반 보안 자동화 워크플로우를 설계하고, LLM이 만든 결과물의 신뢰성과 보안성을 평가하며, 공격 결과를 탐지 룰·패치 전략·위협 모델링으로 연결하는 일도 중요해진다. 이 관점에서 보안 전문가는 사라지지 않는다. 대신 더 높은 수준의 판단을 요구받는다. 단순히 취약점을 찾는 사람보다, AI와 자동화 시스템을 이용해 보안 문제를 관리하고 운영하는 사람이 더 중요해진다. --- ### 5.2 주니어와 반복 업무 중심 직무는 위협받는다 비관적 관점에서는 보안 업계가 산업혁명과 비슷한 변화를 겪을 수 있다고 본다. 산업혁명 이후 기계가 도입되면서 생산성은 높아졌지만, 일부 노동자의 역할은 크게 바뀌었다. 수작업 자체의 가치는 줄었고, 기계를 운영하고 관리하고 설계하는 역량의 가치는 커졌다. AI도 비슷한 방식으로 보안 업계를 바꿀 수 있다. 반복적이고 표준화된 업무는 AI가 빠르게 자동화한다. 로그 분석, 경보 분류, 취약점 스캔 결과 정리, 보고서 작성, 기본 코드 분석은 점점 AI가 처리할 가능성이 크다. 기업 입장에서는 많은 주니어 분석가를 채용해 반복 업무를 맡기는 것보다, 소수의 고급 인력이 여러 AI 에이전트를 운영하는 방식이 더 효율적일 수 있다. 보안 인력이 완전히 사라지는 것은 아니다. 다만 필요한 사람의 수와 역할은 크게 바뀐다. 특히 위험한 것은 **경험을 쌓는 사다리**가 약해지는 일이다. 기존에는 주니어가 단순 업무를 하면서 시스템을 이해하고, 로그를 읽고, 취약점 패턴을 익히고, 점점 더 어려운 분석으로 넘어갔다. 그 단순 업무가 AI로 대체되면 주니어가 성장할 기회가 줄어든다. 결과적으로 이미 전문성을 가진 시니어는 AI로 더 강해지고, 새로 진입하는 사람은 더 높은 기준을 요구받을 수 있다. OECD의 한국 노동시장 분석은 보안 업계를 직접 다룬 문서는 아니다. 그래도 AI의 혜택과 위험이 모두에게 균등하게 분배되지 않을 수 있음을 보여준다. 해당 보고서는 한국에서 일부 형태의 AI가 청년, 저·중학력 노동자, 제조업 분야의 정규직 고용 성장 둔화와 연관될 수 있다고 분석하며, AI의 benefits and risks가 균등하게 분배되지 않을 수 있다고 설명한다.\[15\] 이를 보안 업계에 조심스럽게 적용하면, AI는 모두에게 같은 기회를 주기보다 기본기와 판단력을 이미 갖춘 사람의 생산성을 더 크게 증폭할 가능성이 있다. 미래의 보안 업계가 모두에게 좋은 방향으로만 변하리라고 보기는 어렵다. 전문성을 가진 사람에게는 큰 기회다. 기본기가 부족하거나 정형화된 업무만 하던 사람에게는 위협이 될 수 있다. --- ### 5.3 취약점 제보와 버그바운티 생태계도 바뀌고 있다 LLM의 영향은 취약점 분석 능력에만 머물지 않는다. 취약점 제보 생태계도 이미 영향을 받고 있다. 대표적인 사례가 curl이다. curl maintainer Daniel Stenberg는 2025년 7월 글에서 LLM 기반으로 생성된 저품질 취약점 제보, 이른바 **AI slop**이 증가하고 있다고 밝혔다. 실제 취약점으로 확인되는 비율은 크게 낮아졌다. 당시 그는 2025년 초반 curl에 들어온 보안 제보 중 약 20%가 AI slop이었고, 실제 취약점으로 확인된 비율은 약 5% 수준이었다고 설명했다.\[10\] curl은 2026년 1월 31일 금전적 bug bounty program을 중단했다. Stenberg는 그 배경으로 AI slop, 낮아진 제보 품질, bad faith report, 검토 인력 부담이 결합된 상황을 설명했다.\[11\] 이 사례는 중요한 점을 보여준다. AI가 취약점 후보를 많이 만들어내면, 그중에는 진짜도 있을 수 있다. 동시에 그럴듯해 보이지만 실제로는 틀린 제보도 폭증한다. 프로젝트 관리자는 더 많은 시간을 들여 제보를 검토해야 하고, 정작 중요한 취약점 대응에 쓸 시간은 줄어들 수 있다. Google의 Android와 Chrome VRP 개편도 비슷한 흐름에서 볼 수 있다. Google Bug Hunters는 AI 시대에 맞춰 Android와 Chrome VRP 개편을 발표했다. 단순히 “취약점처럼 보이는 것”을 많이 제출하는 것보다 실제 영향도, 재현 가능성, actionable report, high-impact vulnerability를 더 중시하는 방향으로 볼 수 있다.\[12\] 앞으로 버그바운티와 취약점 제보 생태계에서는 실제 재현 가능한 PoC를 만들고, 취약점 영향도를 정확히 설명하고, false positive를 줄이는 능력이 더 중요해질 가능성이 크다. 패치 가능성과 운영 리스크를 함께 설명하는 능력, AI가 만든 분석 결과를 사람이 검증 가능한 증거로 바꾸는 능력도 마찬가지다. AI 시대의 취약점 제보는 **양보다 질의 싸움**으로 갈 가능성이 높다. --- ## 6. 몇 가지 실제 사례가 보여주는 것 ### 6.1 Firefox: AI는 실제 대형 코드베이스의 보안 개선에 기여할 수 있다 Anthropic과 Mozilla의 Firefox 사례는 LLM의 방어적 활용 가능성을 잘 보여준다. Claude Opus 4.6은 Firefox에서 22개의 취약점을 발견했고, 이 중 14개는 high-severity vulnerability로 분류되었다. Mozilla는 Firefox 148에서 관련 security-sensitive bug를 수정했다. 이후 초기 Mythos Preview 평가를 통해 Firefox 150에서 271개의 취약점을 수정했다고 밝혔다.\[5\]\[6\] 이 사례는 “AI가 실제로 도움이 되는가?”라는 질문에 꽤 강한 답을 준다. 도움이 된다. 다만 조건이 있다. AI가 낸 결과를 그대로 믿은 것이 아니라, Mozilla와 Anthropic 연구자들이 검증하고, triage하고, patch로 연결했다. AI는 취약점 후보를 빠르게 찾아내는 강력한 엔진이지만, 그 결과를 실제 제품 보안 개선으로 바꾸는 과정에는 사람이 필요하다. Firefox 사례는 네 가지를 보여준다. 1. 1\. AI는 실제 대형 소프트웨어에서 유의미한 취약점을 찾을 수 있다. 2. 2\. 방어자의 취약점 탐색 속도도 높인다. 3. 3\. 최종 판단, 검증, 패치, 릴리스는 여전히 사람과 조직의 역량에 의존한다. 4. 4\. AI가 만든 취약점 후보를 신뢰 가능한 보안 개선으로 바꾸는 workflow가 중요해진다. --- ### 6.2 Copy Fail: 인간의 insight와 AI의 대규모 탐색이 결합된다 Copy Fail은 Linux kernel 취약점 사례로, AI와 인간 연구자의 역할이 어떻게 결합될 수 있는지를 보여준다. 이 사례를 단순히 “AI가 취약점을 발견했다”고만 말하면 부정확하다. Xint의 설명에 따르면 Copy Fail은 Theori 이태양 연구자의 공격면 insight에서 출발했다. 인간 연구자가 Linux crypto subsystem과 page-cache-backed data의 상호작용이라는 방향을 제시했고, Xint Code가 이를 바탕으로 crypto subsystem 전체를 스캔해 authencesn scratch-write bug를 높은 심각도의 결과로 찾아냈다.\[13\] 위 사례는 취약점 발견의 결정적인 출발점이 결국 사람의 insight에서 비롯된다는 점을 보여주는 중요한 사례이다. AI가 강력해도 무엇을 볼지, 어디를 의심할지, 어떤 방향으로 탐색할지 정하는 일은 여전히 인간의 통찰에서 출발할 수 있다. 물론 그 뒤의 대규모 코드 탐색과 후보 추출은 AI가 훨씬 빠르게 수행한다. 앞으로의 취약점 연구는 “인간 vs AI”가 아니라 **인간의 insight + AI의 대규모 탐색** 구조로 발전할 가능성이 크다. Copy Fail은 인간이 attack surface와 bug class에 대한 방향성을 제공하고, AI가 그 방향성을 바탕으로 대규모 탐색을 수행하며, 의미 있는 취약점 후보를 찾은 뒤 다시 인간이 검증하고 exploitability를 판단하는 흐름을 보여준다. 미래의 강한 연구자는 AI를 배제하는 사람이 아니라, AI가 잘 찾을 수 있는 문제 공간을 설계하는 사람일 수 있다. --- ### 6.3 Dirty Frag 사례: 공개와 패치 타이밍이 더 중요해진다 Dirty Frag는 Linux kernel LPE 사례로, 취약점 공개와 패치 타이밍의 중요성을 보여준다. Dirty Frag 문서에 따르면 이 취약점 class는 `xfrm-ESP Page-Cache Write`와 `RxRPC Page-Cache Write`를 체이닝한 Linux local privilege escalation 사례다. 공개 문서 기준으로 두 취약점에는 각각 CVE-2026-43284와 CVE-2026-43500이 부여되었고, mainline patch도 정리되었다.\[14\] 이 사례에서 특히 중요한 부분은 공개 순서다. Dirty Frag 문서는 최초 공개 시점인 2026년 5월 7일에는 외부 요인으로 embargo가 깨지면서 patch와 CVE가 아직 준비되지 않은 상태였다고 설명한다. 이후 mainline patch와 CVE가 정리되었다.\[14\] 여기서 핵심은 “취약점이 강력하다”는 사실 자체가 아니다. 더 중요한 문제는 취약점 정보가 패치보다 먼저 공개되었을 때 생기는 대응 공백이다. 방어자는 정확한 수정 패치가 나오기 전까지 제한된 정보로 영향 범위를 판단하고, 임시 완화 조치를 적용하고, 내부 시스템의 노출 여부를 확인해야 한다. AI가 취약점 분석과 재현 속도를 높인다면 이 공백은 더 위험한 구간이 된다. 과거에는 공개된 취약점 정보를 실제 공격 가능성으로 연결하는 데 시간이 걸렸지만, 앞으로는 그 시간이 더 짧아질 수 있기 때문이다. 다만 Dirty Frag를 “누구나 즉시 root를 얻는 취약점”처럼 단정해서는 안 된다. 실제 영향도는 로컬 접근 가능성, 모듈 로딩 상태, namespace 정책, 배포판 설정, 커널 버전, 백포트 여부에 따라 달라질 수 있다. 그럼에도 Dirty Frag가 보여주는 메시지는 분명하다. AI 시대에는 취약점을 얼마나 빨리 찾느냐만큼, 그 정보를 언제 공개하고, 패치를 얼마나 빠르게 준비하고, 방어자가 대응할 시간을 어떻게 확보하느냐가 중요해진다. --- ## 7. 우리가 예측한 미래가 온다면 어떻게 살아남을 수 있을까? 우리 팀의 의견을 종합하면, AI 시대에 살아남는 보안 인재는 단순히 “AI를 쓰는 사람”이 아니다. “AI보다 모든 것을 더 잘하는 사람”도 아니다. 핵심은 이쪽에 가깝다. > **AI가 낸 결과를 이해하고, 의심하고, 검증하고, 실제 보안 의사결정으로 연결할 수 있는 사람.** 필요한 능력은 다섯 가지로 정리할 수 있다. --- ### 7.1 CS 기본기를 더 깊게 쌓아야 한다 AI가 발전할수록 기본기는 더 중요해진다. AI가 race condition을 의심한다고 말해도 thread, lock, synchronization, TOCTOU를 이해하지 못하면 그 분석이 맞는지 판단하기 어렵다. AI가 SSRF 가능성을 제시해도 DNS resolution, internal network, redirect, metadata endpoint, parser differential을 모르면 실제 재현 가능성과 영향도를 판단할 수 없다. AI가 UAF나 OOB를 말해도 메모리 구조와 객체 생명주기를 이해하지 못하면 exploitability 판단이 흔들린다. 보안은 취약점 이름을 외우는 분야가 아니다. 운영체제, 네트워크, 컴퓨터 구조, 웹 브라우저, 데이터베이스, 인증 구조, 암호학 같은 기본 지식 위에서 취약점이 발생한다. AI 시대의 보안 인재는 AI가 설명한 내용을 이해하는 수준을 넘어, AI가 틀렸을 때 반박할 수 있어야 한다. --- ### 7.2 AI의 결과를 검증할 수 있어야 한다 보안에서 중요한 것은 그럴듯한 답변이 아니라 증거다. AI가 “이건 RCE 가능성이 있다”고 말해도 실제 입력, 실행 경로, crash, control flow, 권한, 환경 조건이 확인되지 않으면 아직 취약점이 아니다. AI가 “이건 XSS다”라고 말해도 실제 브라우저에서 실행되는지, CSP에 막히는지, sink까지 도달하는지 확인해야 한다. AI가 “이 코드는 race condition이 가능하다”고 말해도 실제 경쟁 조건이 성립하는지, 공격자가 타이밍을 제어할 수 있는지, 결과가 보안 영향으로 이어지는지 검증해야 한다. 앞으로 AI가 만들어내는 분석 결과는 폭증할 가능성이 크다. 그중에는 진짜도 있겠지만, 그럴듯한 오답도 많을 것이다. curl 사례처럼 LLM 기반 취약점 제보가 늘어나면서 오픈소스 프로젝트나 버그바운티 운영자가 노이즈에 시달리는 사례도 이미 나오고 있다.\[10\]\[11\] 중요한 능력은 “답을 많이 만드는 능력”이 아니라 **진짜를 골라내는 능력**이다. 이를 위해서는 AI의 말을 그대로 믿지 않고, 항상 재현 가능한 증거를 요구해야 한다. 로그, crash, PoC, patch diff, 요청과 응답을 확인하고, 취약점의 실제 영향도를 따져야 한다. 공격 가능성과 운영 리스크도 분리해서 판단해야 한다. AI 시대의 보안 전문가는 AI의 결과를 책임질 수 있어야 한다. --- ### 7.3 LLM 에이전트와 자동화 워크플로우를 설계할 수 있어야 한다 앞으로 잘하는 사람이라 하면, 단순히 LLM에게 질문을 잘하는 사람이 아닐 가능성이 크다. 더 중요한 것은 LLM이 복잡한 문제를 풀 수 있도록 환경, 도구, 검증 루프를 설계하는 능력이다. 최근에는 이런 흐름을 하네스 엔지니어링 또는 스캐폴딩이라고 부르기도 한다. 하네스 엔지니어링 또는 스캐폴딩은 모델이 답변만 생성하는 데 그치지 않고, 실행 환경, 도구, 샌드박스, 테스트 루프, 성공 조건, 검증 절차를 함께 사용해 문제를 풀도록 환경을 설계하는 방식이다. 보안 업무에 적용하면 다음 흐름을 만들 수 있다. 1. 1\. Recon 2. 2\. Hypothesis 3. 3\. Code/Target Analysis 4. 4\. Test 5. 5\. Evidence Collection 6. 6\. Reproduction or Exploitability Validation 7. 7\. Patch Suggestion 8. 8\. Report 사람이 이 과정을 전부 반복하는 것이 아니라, LLM 에이전트와 도구가 함께 수행하도록 만드는 것이다. 하지만 이 구조를 설계하려면 사람이 문제를 정확히 이해해야 한다. 어떤 정보를 수집해야 하는지, 어떤 도구를 붙여야 하는지, 어떤 기준으로 성공과 실패를 판단해야 하는지 알아야 한다. 미래에는 “보안 문제를 직접 해결하는 사람”뿐 아니라 **보안 문제를 잘 해결하도록 AI 시스템을 설계하는 사람**의 가치가 커질 것이다. --- ### 7.4 문제를 발견하고 해결 방법을 기획하는 능력이 필요하다 LLM은 구현 능력의 장벽을 크게 낮추고 있다. 예전에는 아이디어가 있어도 구현 역량이 부족하면 도구를 만들기 어려웠다. 이제는 LLM을 활용해 자동화 스크립트, 분석 도구, 리포트 생성기, 에이전트 워크플로우를 훨씬 빠르게 만들 수 있다. 그러면 더 중요해지는 것은 단순 구현력이 아니다. 어떤 문제가 중요한지 발견하고, 그 문제를 해결 가능한 형태로 정의하고, LLM과 도구를 조합해 해결 구조를 설계하는 능력이다. 결과가 실제로 유효한지 검증하고, 조직이나 팀이 사용할 수 있는 형태로 정리하는 능력도 중요하다. 단순 코더보다 문제 정의자, 설계자, 검증자의 가치가 커질 수 있다. 보안 분야도 마찬가지다. 취약점을 하나 더 찾는 것도 중요하지만, 취약점을 더 잘 찾기 위한 도구, 에이전트, 스킬, 검증 파이프라인을 만드는 능력이 점점 더 중요해질 것이다. 비유하자면 금광에서 금을 캐는 능력도 중요하지만, 앞으로는 금을 더 잘 캐기 위한 **곡괭이**를 만드는 능력의 가치가 더 커질 수 있다. --- ### 7.5 LLM이 만든 코드도 검증 대상이다 LLM을 보안 업무에 활용한다고 해서 LLM이 생성한 코드가 자동으로 안전해지는 것은 아니다. LLM-generated code의 보안성을 다룬 연구들은 LLM이 기능적으로는 그럴듯한 코드를 만들 수 있지만, 그 코드가 취약점을 포함할 수 있음을 보여준다. He와 Vechev의 연구는 LLM의 코드 생성에서 security hardening과 adversarial testing 문제를 다루고, SALLM은 LLM이 생성한 코드의 보안성을 평가하기 위한 benchmark framework를 제안한다.\[16\]\[17\] 이 점은 보안 자동화에서도 중요하다. AI가 만든 PoC, 분석 스크립트, 패치, 탐지 룰, 리포트 생성 코드도 모두 검증 대상이다. AI가 만든 결과가 보안 업무를 돕는다고 해서 그 결과가 곧바로 신뢰 가능한 것은 아니다. AI 시대의 보안 워크플로우에는 다음과 같은 질문이 항상 들어가야 한다. - \- 이 결과는 재현 가능한가? - \- 이 코드는 안전하게 실행 가능한가? - \- 이 패치는 기능을 깨지 않는가? - \- 이 탐지 룰은 false positive를 과도하게 만들지 않는가? - \- 이 자동화 도구 자체가 새로운 보안 리스크를 만들지 않는가? AI를 쓰는 것만큼 중요한 일은 AI의 산출물을 검증하는 체계를 만드는 것이다. --- ## 8. 마무리 GPT-5.5-Cyber와 Claude Mythos Preview의 등장은 보안 업계가 더 빠르고 자동화된 방향으로 움직이고 있음을 보여준다. 낙관적으로 보면, LLM은 보안 전문가의 생산성을 크게 높이고 더 어려운 문제를 풀 수 있게 만드는 강력한 도구다. Mozilla와 Anthropic의 Firefox 협업, Google Project Zero의 Big Sleep 사례는 AI가 방어자에게도 실질적인 도움을 줄 수 있음을 보여준다.\[5\]\[6\]\[9\] 비관적으로 보면, LLM은 공격의 진입 장벽을 낮추고 반복적인 보안 업무를 압박하며, 주니어가 성장할 기회를 줄일 수 있는 요인이기도 하다. NCSC와 Fortinet이 지적하듯 취약점 발견과 악용의 비용이 낮아질수록 방어자의 patch pressure는 커질 수밖에 없다.\[7\]\[8\] 한 가지는 분명해 보인다. 보안 업계는 이전과 같은 방식으로 유지되지 않을 것이다. 앞으로 중요한 사람은 AI를 무작정 배척하는 사람도, AI의 답을 그대로 믿는 사람도 아니다. AI를 적극적으로 활용하되, 그 결과를 자신의 CS 지식과 실전 감각으로 검증하고, 실제 보안 의사결정으로 연결할 수 있는 사람이 중요해진다. 보안 업무도 단순히 취약점을 찾는 데서 끝나지 않는다. AI가 취약점을 더 잘 찾고, 검증하고, 보고하고, 패치까지 연결할 수 있도록 만드는 방향으로 확장될 것이다. 그 과정에서 LLM 에이전트, 분석 자동화 도구, CTF와 취약점 연구를 더 잘 수행하기 위한 스킬과 워크플로우 같은 **“곡괭이**”는 점점 더 중요해질 것이다. 좋은 곡괭이는 단순히 일을 대신해주는 도구가 아니라, 더 좋은 가설을 세우고, 더 빠르게 검증하고, 더 정확한 증거로 이어지게 만드는 기반이기 때문이다. 우리들(TOOR 팀)은 이런 변화 속에서 뒤처지지 않기 위해 더 좋은 **곡괭이**를 만들고, 공부하고, 연구하고 있다. 당신은 이 변화 앞에서 어떻게 준비하고 있는가? --- ## Reference \[1\] OpenAI, [Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber](https://openai.com/index/gpt-5-5-with-trusted-access-for-cyber/) \[2\] UK AI Security Institute, [Our evaluation of OpenAI’s GPT-5.5 cyber capabilities](https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities) \[3\] Anthropic Red Team, [Claude Mythos Preview](https://red.anthropic.com/2026/mythos-preview/) \[4\] UK AI Security Institute, [Our evaluation of Claude Mythos Preview’s cyber capabilities](https://www.aisi.gov.uk/blog/our-evaluation-of-claude-mythos-previews-cyber-capabilities) \[5\] Anthropic, [Partnering with Mozilla to improve Firefox’s security](https://www.anthropic.com/news/mozilla-firefox-security) \[6\] Mozilla, [The zero-days are numbered](https://blog.mozilla.org/en/privacy-security/ai-security-zero-day-vulnerabilities/) \[7\] UK NCSC, [Retaining defensive advantage in the age of frontier AI cyber capabilities](https://www.ncsc.gov.uk/blogs/retaining-defensive-advantage-in-the-age-of-frontier-ai-cyber-capabilities) \[8\] Fortinet, [2026 Global Threat Landscape Report press release](https://www.fortinet.com/corporate/about-us/newsroom/press-releases/2026/fortinet-2026-global-threat-landscape-report-reveals-surge-in-ai-enabled-cybercrime-increase-ransomware-victims-year-over-year) \[9\] Google Project Zero, [From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code](https://projectzero.google/2024/10/from-naptime-to-big-sleep.html) \[10\] Daniel Stenberg, [Death by a thousand slops](https://daniel.haxx.se/blog/2025/07/14/death-by-a-thousand-slops/) \[11\] Daniel Stenberg, [The end of the curl bug-bounty](https://daniel.haxx.se/blog/2026/01/26/the-end-of-the-curl-bug-bounty/) \[12\] Google Bug Hunters, [Evolving the Android & Chrome VRPs for the AI Era](https://bughunters.google.com/blog/evolving-the-android-chrome-vrps-for-the-ai-era) \[13\] Xint, [Copy Fail: 732 Bytes to Root on Every Major Linux Distribution](https://xint.io/blog/copy-fail-linux-distributions) \[14\] V4bel, [Dirty Frag: Universal Linux LPE](https://github.com/V4bel/dirtyfrag) \[15\] OECD/Korea Labor Institute, [Artificial Intelligence and the Labour Market in Korea](https://www.oecd.org/en/publications/artificial-intelligence-and-the-labour-market-in-korea_68ab1a5a-en.html) \[16\] He and Vechev, [Large Language Models for Code: Security Hardening and Adversarial Testing](https://arxiv.org/abs/2302.05319) \[17\] Siddiq et al., [SALLM: Security Assessment of Generated Code](https://arxiv.org/abs/2311.00889)