목차
주요 시사점
- 신경망 모델 반전 공격은 AI 챗봇을 사용하여 디지털 발자국에서 개인 정보를 찾아 재구성합니다.
- 해커는 신경망의 출력을 기반으로 입력을 예측하는 반전 모델을 만들어 민감한 데이터를 드러냅니다.
- 차등 개인 정보 보호, 다자간 계산, 연합 학습과 같은 기술은 역전 공격으로부터 보호하는 데 도움이 될 수 있지만 이는 지속적인 싸움입니다. 사용자는 선택적 공유자가 되어야 하며, 소프트웨어를 최신 상태로 유지하고, 개인 정보 제공에 주의해야 합니다.
당신이 레스토랑에 가서 지금까지 먹어본 최고의 케이크를 맛봤다고 상상해 보세요. 집으로 돌아와서 당신은 이 요리의 걸작을 재현하기로 결심합니다. 레시피를 묻는 대신 미뢰와 지식을 활용하여 디저트를 분해하고 직접 만들어보세요.
이제 누군가가 귀하의 개인 정보로 그런 일을 할 수 있다면 어떨까요? 누군가가 당신이 남긴 디지털 발자국을 맛보고 당신의 개인 정보를 재구성합니다.
이것이 바로 AI 챗봇을 사이버 조사 도구로 전환할 수 있는 기술인 신경망 모델 역전 공격의 핵심입니다.
신경망 모델 반전 공격 이해
신경망은 현대 인공 지능(AI)의 ‘두뇌’입니다. 이들은 음성 인식, 인간화 챗봇, 생성 AI의 인상적인 기능을 담당합니다.
신경망은 본질적으로 인간의 두뇌처럼 패턴을 인식하고, 생각하고, 학습하도록 설계된 일련의 알고리즘입니다. 그들은 우리의 유기적 능력을 훨씬 능가하는 규모와 속도로 그렇게 합니다.
AI의 비밀의 책
인간의 뇌와 마찬가지로 신경망도 비밀을 숨길 수 있습니다. 이러한 비밀은 사용자가 제공한 데이터입니다. 모델 역전 공격에서 해커는 신경망의 출력(예: 챗봇의 응답)을 사용하여 입력(사용자가 제공한 정보)을 리버스 엔지니어링합니다.
공격을 실행하기 위해 해커는 ‘역전 모델’이라는 자체 머신러닝 모델을 사용합니다. 이 모델은 원본 데이터가 아닌 대상에서 생성된 출력에 대해 훈련된 일종의 거울 이미지로 설계되었습니다.
이 반전 모델의 목적은 입력(챗봇에 입력한 원본 데이터, 종종 민감한 데이터)을 예측하는 것입니다.
반전 모델 만들기
반전을 만드는 것은 파쇄된 문서를 재구성하는 것으로 생각할 수 있습니다. 하지만 종이 조각을 엮는 대신 대상 모델의 반응에 전달되는 스토리를 하나로 엮는 것입니다.
반전 모델은 신경망 출력의 언어를 학습합니다. 시간이 지남에 따라 입력의 성격을 드러내는 명백한 징후를 찾습니다. 각각의 새로운 데이터와 분석된 각 반응을 통해 귀하가 제공하는 정보를 더 잘 예측할 수 있습니다.
이 과정은 가설과 검증의 끊임없는 순환입니다. 출력이 충분하면 반전 모델은 가장 무해해 보이는 데이터에서도 귀하의 상세한 프로필을 정확하게 추론할 수 있습니다.
반전모델의 과정은 점들을 연결하는 게임이다. 상호 작용을 통해 유출된 각 데이터 조각을 통해 모델은 프로필을 형성할 수 있으며, 충분한 시간이 지나면 모델이 형성하는 프로필이 예상외로 상세해집니다.
결국 사용자의 활동, 선호도, 신원에 대한 통찰력이 드러납니다. 공개되거나 공개될 의도가 없었던 통찰력.
무엇이 그것을 가능하게 만드는가?
신경망 내에서 각 쿼리와 응답은 데이터 포인트입니다. 숙련된 공격자는 고급 통계 방법을 사용하여 이러한 데이터 포인트를 분석하고 인간이 이해할 수 없는 상관 관계와 패턴을 찾습니다.
회귀 분석(두 변수 사이의 관계 조사)과 같은 기술을 사용하면 수신된 출력을 기반으로 입력 값을 예측할 수 있습니다.
해커는 자신의 반전 모델에서 기계 학습 알고리즘을 사용하여 예측을 개선합니다. 이들은 챗봇의 출력을 가져와 알고리즘에 입력하여 대상 신경망의 역함수에 근접하도록 훈련합니다.
단순화된 용어로 “역함수”는 해커가 출력에서 입력으로 데이터 흐름을 역전시키는 방법을 나타냅니다. 공격자의 목표는 원래 신경망의 반대 작업을 수행하도록 반전 모델을 훈련시키는 것입니다.
본질적으로 이것은 출력만 주어지면 입력이 무엇인지 계산하려고 시도하는 모델을 만드는 방법입니다.
반전 공격이 귀하에게 어떻게 사용될 수 있습니까?
인기 있는 온라인 건강 평가 도구를 사용하고 있다고 상상해 보십시오. 증상, 이전 상태, 식습관, 약물 사용까지 입력하면 웰빙에 대한 통찰력을 얻을 수 있습니다.
민감한 개인정보입니다.
귀하가 사용하고 있는 AI 시스템을 표적으로 하는 반전 공격을 통해 해커는 챗봇이 제공하는 일반적인 조언을 받아들여 귀하의 개인 의료 기록을 추론하는 데 사용할 수 있습니다. 예를 들어 챗봇의 응답은 다음과 같을 수 있습니다.
항핵항체(ANA)는 루푸스와 같은 자가면역 질환의 존재를 나타내는 데 사용될 수 있습니다.
반전 모델은 대상 사용자가 자가면역 질환과 관련된 질문을 했다는 것을 예측할 수 있습니다. 더 많은 정보와 더 많은 응답을 통해 해커는 대상의 건강 상태가 심각한 것으로 추론할 수 있습니다. 갑자기 유용한 온라인 도구가 개인 건강을 엿볼 수 있는 디지털 구멍이 됩니다.
반전 공격에 대해 무엇을 할 수 있습니까?
개인 데이터를 중심으로 요새를 구축할 수 있나요? 글쎄, 그것은 복잡하다. 신경망 개발자는 보안 계층을 추가하고 작동 방식을 모호하게 하여 역모델 공격을 수행하기 더 어렵게 만들 수 있습니다. 다음은 사용자를 보호하기 위해 사용되는 기술의 몇 가지 예입니다.
- 차등 개인 정보 보호: 이를 통해 AI 출력이 개별 데이터 포인트를 가릴 만큼 충분히 “잡음”을 보장합니다. 그것은 군중 속에서 속삭이는 것과 조금 비슷합니다. 주변 사람들의 집단적인 대화 속에서 당신의 말은 길을 잃습니다.
- 다자간 컴퓨팅: 이 기술은 중요한 세부 정보가 아닌 개별 작업의 결과만 공유하여 기밀 프로젝트를 진행하는 팀과 같습니다. 이를 통해 개별 사용자 데이터를 네트워크 또는 서로 노출하지 않고도 여러 시스템에서 함께 데이터를 처리할 수 있습니다.
- 연합 학습: 개별 사용자의 데이터를 로컬에 유지하면서 여러 장치에 걸쳐 AI를 교육하는 과정이 포함됩니다. 합창단이 함께 노래하는 것과 비슷합니다. 모든 음성을 들을 수 있지만 단일 음성을 분리하거나 식별할 수는 없습니다.
이러한 솔루션은 대체로 효과적이지만 반전 공격으로부터 보호하는 것은 고양이와 쥐 게임입니다. 방어가 향상됨에 따라 이를 우회하는 기술도 향상됩니다. 그러면 책임은 당사 데이터를 수집하고 저장하는 회사와 개발자에게 있지만 귀하가 자신을 보호할 수 있는 방법이 있습니다.
반전 공격으로부터 자신을 보호하는 방법
이미지 출처: 마이크 맥켄지/플리커
상대적으로 말하면 신경망과 AI 기술은 아직 초기 단계입니다. 시스템이 완벽해질 때까지 데이터를 보호할 때 첫 번째 방어선이 되는 책임은 사용자에게 있습니다.
반전 공격의 피해자가 될 위험을 낮추는 방법에 대한 몇 가지 팁은 다음과 같습니다.
- 선택적 공유자가 되십시오. 귀하의 개인 정보를 가족의 비밀 레시피처럼 다루십시오. 특히 온라인으로 양식을 작성하고 챗봇과 상호 작용할 때 누구와 공유할지 선택하세요. 귀하에게 요청되는 모든 데이터의 필요성에 대해 질문하십시오. 낯선 사람과 정보를 공유하지 않으려면 챗봇과 공유하지 마세요.
- 소프트웨어 업데이트 유지: 프런트엔드 소프트웨어, 브라우저, 운영 체제까지 업데이트하면 사용자를 안전하게 보호할 수 있습니다. 개발자가 신경망을 보호하느라 바쁜 동안 정기적으로 패치와 업데이트를 적용하면 데이터 가로채기 위험을 줄일 수도 있습니다.
- 개인 정보를 개인적으로 유지하십시오. 애플리케이션이나 챗봇이 개인 정보를 요청할 때마다 일시 중지하고 의도를 고려하십시오. 요청한 정보가 제공된 서비스와 관련이 없어 보인다면 아마도 그럴 가능성이 높습니다.
단지 새로운 지인이 필요하다고 했기 때문에 건강, 재정, 신원 등의 민감한 정보를 새로운 지인에게 제공하지는 않을 것입니다. 마찬가지로, 애플리케이션이 작동하는 데 실제로 필요한 정보가 무엇인지 측정하고 더 많은 정보를 공유하지 않도록 선택하세요.
AI 시대의 개인정보 보호
우리의 개인정보는 우리의 가장 귀중한 자산입니다. 이를 보호하려면 정보를 공유하는 방법과 사용하는 서비스에 대한 보안 조치를 개발하는 데 있어 경계가 필요합니다.
이러한 위협을 인식하고 이 문서에 설명된 것과 같은 조치를 취하면 눈에 보이지 않는 공격 벡터에 대한 방어력을 더욱 강화할 수 있습니다.
우리의 개인 정보가 그대로 비공개로 유지되는 미래를 위해 노력합시다.