데이터는 기업 운영의 핵심 요소이며, 그 가치는 적절한 구조화와 효율적인 관리에 달려있습니다.
최근 통계에 따르면, 현재 기업의 95%가 비정형 데이터를 관리하고 구조화하는 데 어려움을 겪고 있다고 합니다.
이러한 상황에서 데이터 마이닝이 중요한 역할을 합니다. 데이터 마이닝은 대규모의 비정형 데이터 집합에서 유의미한 패턴과 가치 있는 정보를 발견, 분석 및 추출하는 과정입니다.
기업은 소프트웨어를 활용하여 방대한 데이터에서 패턴을 파악함으로써 고객과 잠재 고객에 대한 심층적인 이해를 얻고, 이를 바탕으로 비즈니스 및 마케팅 전략을 수립하여 매출 증대와 비용 절감을 달성할 수 있습니다.
이러한 이점 외에도, 사기 및 이상 징후 탐지는 데이터 마이닝의 가장 중요한 응용 분야 중 하나입니다.
본 문서에서는 이상 징후 탐지에 대해 자세히 알아보고, 데이터 보안을 강화하고 데이터 침해 및 네트워크 침입을 예방하는 데 어떻게 기여하는지 살펴볼 것입니다.
이상 징후 탐지란 무엇이며, 그 유형은 무엇인가?
데이터 마이닝은 데이터 간의 연결 패턴, 상관관계 및 추세를 파악하는 데 초점을 맞추지만, 네트워크 내에서 특이한 데이터 포인트를 찾는 데에도 매우 유용합니다.
데이터 마이닝에서 이상 징후는 데이터 세트 내 다른 데이터 포인트들과 확연히 구분되며, 일반적인 동작 패턴에서 벗어난 데이터 포인트를 의미합니다.
이상 징후는 다음과 같이 뚜렷한 유형과 범주로 분류할 수 있습니다.
- 사건의 변화: 이전의 정상적인 행동에서 갑작스럽거나 지속적인 변화를 보이는 경우를 의미합니다.
- 특이치: 데이터 수집 과정에서 예측 불가능한 방식으로 나타나는 작은 이상 패턴을 나타냅니다. 이는 다시 전역, 맥락, 집단 이상치로 세분화할 수 있습니다.
- 드리프트: 데이터 세트 내에서 점진적, 일방향, 장기적인 변화를 의미합니다.
따라서 이상 징후 탐지는 사기 거래 탐지, 고급 불균형 사례 연구 처리, 강력한 데이터 과학 모델 구축을 위한 질병 탐지 등 다양한 분야에서 매우 유용한 데이터 처리 기술입니다.
예를 들어, 기업은 사기 행위를 감지하고 추가 조사를 수행하기 위해, 비정상적이거나 반복적인 거래가 발생한 계좌를 식별하기 위해 자금 흐름을 분석할 수 있습니다.
이상 징후 탐지의 이점
사용자 행동 이상 징후 탐지는 보안 시스템을 강화하고 더 정확하게 만드는 데 중요한 역할을 합니다.
보안 시스템이 제공하는 다양한 정보를 분석하고 이해함으로써 네트워크 내 위협과 잠재적인 위험을 식별하는 데 도움이 됩니다.
기업이 이상 징후 탐지를 통해 얻을 수 있는 주요 이점은 다음과 같습니다.
- 인공 지능(AI) 알고리즘이 데이터를 지속적으로 스캔하여 이상 행동을 감지하므로 사이버 보안 위협 및 데이터 침해를 실시간으로 감지할 수 있습니다.
- 이상 활동 및 패턴을 수동 감지보다 더 빠르고 쉽게 추적하여 위협 해결에 필요한 노동력과 시간을 줄일 수 있습니다.
- 갑작스러운 성능 저하와 같은 운영 오류를 사전에 감지하여 운영 위험을 최소화할 수 있습니다.
- 이상 징후 탐지 시스템이 없으면 잠재적인 위협을 식별하는 데 몇 주 또는 몇 달이 걸릴 수 있지만, 이상 징후를 신속하게 감지하여 주요 비즈니스 피해를 방지할 수 있습니다.
결론적으로, 이상 징후 탐지는 광범위한 고객 및 비즈니스 데이터 세트를 보유한 기업에게 매우 중요한 자산이며, 성장 기회를 포착하고 보안 위협과 운영상의 병목 현상을 해결하는 데 도움이 됩니다.
이상 징후 탐지 기술
이상 징후 탐지는 다양한 절차와 머신 러닝(ML) 알고리즘을 사용하여 데이터를 모니터링하고 위협을 감지합니다.
주요 이상 징후 탐지 기술은 다음과 같습니다.
#1. 머신 러닝 기술
머신 러닝 기술은 ML 알고리즘을 활용하여 데이터를 분석하고 이상 징후를 감지합니다. 이상 징후 탐지에 사용되는 다양한 유형의 머신 러닝 알고리즘은 다음과 같습니다.
- 클러스터링 알고리즘
- 분류 알고리즘
- 딥 러닝 알고리즘
이상 징후 및 위협 탐지에 일반적으로 사용되는 ML 기술에는 SVM(Support Vector Machine), k-평균 클러스터링 및 자동 인코더가 있습니다.
#2. 통계적 기법
통계적 기법은 통계 모델을 사용하여 데이터에서 비정상적인 패턴을 감지합니다. 예를 들어, 특정 시스템 성능에서 예상 범위를 벗어나는 비정상적인 변동값을 탐지하는 데 활용됩니다.
일반적인 통계적 이상 징후 탐지 기술에는 가설 검정, IQR, Z-점수, 수정된 Z-점수, 밀도 추정, 상자 그림, 극단값 분석 및 히스토그램 등이 있습니다.
#3. 데이터 마이닝 기술
데이터 마이닝 기술은 데이터 분류 및 클러스터링 기술을 사용하여 데이터 세트 내에서 이상 징후를 찾습니다. 일반적인 데이터 마이닝 이상 기술에는 스펙트럼 클러스터링, 밀도 기반 클러스터링 및 주성분 분석 등이 포함됩니다.
클러스터링 데이터 마이닝 알고리즘은 유사성을 기반으로 서로 다른 데이터 포인트를 클러스터로 그룹화하고, 이러한 클러스터 외부에 있는 데이터 포인트와 이상 징후를 찾는 데 사용됩니다.
반면 분류 알고리즘은 미리 정의된 특정 클래스에 데이터 포인트를 할당하고, 이러한 클래스에 속하지 않는 데이터 포인트를 감지합니다.
#4. 규칙 기반 기술
규칙 기반 이상 징후 탐지 기술은 이름에서 알 수 있듯이 미리 결정된 규칙 세트를 사용하여 데이터 내에서 이상 징후를 찾습니다.
이러한 기술은 설정이 비교적 쉽고 간단하지만, 유연성이 부족하고 변화하는 데이터 동작 및 패턴에 효율적으로 적응하지 못할 수 있습니다.
예를 들어, 특정 금액을 초과하는 거래를 사기 행위로 표시하도록 규칙 기반 시스템을 쉽게 프로그래밍할 수 있습니다.
#5. 도메인별 기술
도메인별 기술은 특정 데이터 시스템 내에서 이상 징후를 탐지하는 데 사용됩니다. 특정 도메인에서 이상 징후를 탐지하는 데 매우 효과적일 수 있지만, 지정된 도메인 외부의 다른 도메인에서는 효율성이 떨어질 수 있습니다.
예를 들어, 도메인별 기법을 사용하여 금융 거래에서 이상 징후를 탐지하는 데 특화된 기술을 설계할 수 있습니다. 하지만 기계의 이상 또는 성능 저하를 감지하는 데는 효과적이지 않을 수 있습니다.
이상 징후 탐지를 위한 머신 러닝의 필요성
머신 러닝은 이상 징후 탐지 분야에서 매우 중요하고 유용한 기술입니다.
현재 이상값 탐지가 필요한 대부분의 회사와 조직은 텍스트, 고객 정보, 트랜잭션은 물론 이미지 및 비디오 콘텐츠와 같은 미디어 파일까지 방대한 양의 데이터를 처리하고 있습니다.
모든 은행 거래와 초당 생성되는 데이터를 수동으로 검토하여 의미 있는 통찰력을 얻는 것은 거의 불가능합니다. 또한, 대부분의 기업들은 비정형 데이터를 구조화하고 데이터 분석을 위해 의미 있는 방식으로 배열하는 데 어려움을 겪고 있습니다.
이러한 맥락에서 머신 러닝(ML)과 같은 도구와 기술은 방대한 양의 구조화되지 않은 데이터를 수집, 정리, 구조화, 배열, 분석 및 저장하는 데 중요한 역할을 합니다.
머신 러닝 기술과 알고리즘은 대규모 데이터 세트를 처리하고, 다양한 기술과 알고리즘을 사용 및 결합하여 최상의 결과를 도출할 수 있는 유연성을 제공합니다.
또한, 머신 러닝은 실제 응용 프로그램에서 이상 징후 탐지 프로세스를 간소화하고 귀중한 리소스를 절약하는 데 도움을 줍니다.
이상 징후 탐지에서 머신 러닝의 이점과 중요성은 다음과 같습니다.
- 명시적인 프로그래밍 없이 패턴 및 이상 징후 식별을 자동화하여 이상 징후 탐지를 더 쉽게 확장할 수 있습니다.
- 머신 러닝 알고리즘은 변화하는 데이터 세트 패턴에 대한 적응력이 뛰어나 시간이 지남에 따라 더욱 효율적이고 강력해집니다.
- 크고 복잡한 데이터 세트를 쉽게 처리하여 데이터 세트의 복잡성과 관계없이 이상 징후 탐지를 효율적으로 수행합니다.
- 이상 징후를 조기에 식별하고 감지함으로써 시간과 리소스를 절약합니다.
- 머신 러닝 기반 이상 징후 탐지 시스템은 기존 방법에 비해 높은 수준의 정확도를 달성하는 데 도움이 됩니다.
따라서 머신 러닝과 결합된 이상 징후 탐지는 이상 징후를 더 빠르고 조기에 감지하여 보안 위협 및 악의적인 침입을 방지하는 데 효과적입니다.
이상 징후 탐지를 위한 머신 러닝 알고리즘
분류, 클러스터링 또는 연관 규칙 학습을 위한 다양한 데이터 마이닝 알고리즘을 사용하여 데이터에서 이상 징후 및 특이치를 감지할 수 있습니다.
일반적으로 이러한 데이터 마이닝 알고리즘은 지도 학습 알고리즘과 비지도 학습 알고리즘의 두 가지 범주로 나눌 수 있습니다.
지도 학습
지도 학습은 서포트 벡터 머신, 로지스틱 및 선형 회귀, 다중 클래스 분류와 같은 알고리즘으로 구성된 일반적인 학습 알고리즘 유형입니다. 이 알고리즘 유형은 레이블이 지정된 데이터에 대해 훈련됩니다. 즉, 학습 데이터 세트에는 예측 모델을 구축하기 위한 정상 입력 데이터와 해당하는 올바른 출력 또는 비정상 예제가 모두 포함되어 있습니다.
따라서 지도 학습의 목표는 훈련 데이터 세트의 패턴을 기반으로 보이지 않는 새로운 데이터에 대한 출력 예측을 생성하는 것입니다. 지도 학습 알고리즘의 응용 분야에는 이미지 및 음성 인식, 예측 모델링, 자연어 처리(NLP) 등이 있습니다.
비지도 학습
비지도 학습은 레이블이 지정된 데이터에 대해 훈련되지 않습니다. 대신 훈련 알고리즘에 대한 지침을 제공하지 않고 특정 예측을 수행하는 대신 복잡한 프로세스와 기본 데이터 구조를 발견합니다.
비지도 학습 알고리즘의 응용 분야에는 이상 징후 탐지, 밀도 추정 및 데이터 압축 등이 있습니다.
이제 몇 가지 인기 있는 머신 러닝 기반 이상 징후 탐지 알고리즘을 살펴보겠습니다.
LOF(Local Outlier Factor)
Local Outlier Factor(LOF)는 로컬 데이터 밀도를 고려하여 데이터 포인트가 이상치인지 여부를 판단하는 이상 징후 탐지 알고리즘입니다.
출처: scikit-learn.org
항목의 로컬 밀도를 이웃의 로컬 밀도와 비교하여 밀도가 유사한 영역과 주변 항목보다 상대적으로 밀도가 낮은 항목을 분석합니다. 주변 항목은 예외 또는 이상치에 해당합니다.
간단히 말해, 이상치 또는 변칙적인 항목 주변의 밀도는 이웃 주변의 밀도와 다릅니다. 따라서 이 알고리즘은 밀도 기반 이상치 탐지 알고리즘이라고도 합니다.
K-최근접 이웃(K-NN)
K-NN은 구현하기 쉽고 사용 가능한 모든 예제와 데이터를 저장하고, 거리 메트릭의 유사성을 기반으로 새로운 예제를 분류하는 가장 단순한 분류 및 지도 이상 징후 탐지 알고리즘입니다.
출처:warddatascience.com
이 분류 알고리즘은 학습 과정 중에 다른 작업을 수행하지 않고 레이블이 지정된 학습 데이터만 저장하기 때문에 게으른 학습자라고도 합니다.
레이블이 지정되지 않은 새로운 훈련 데이터 포인트가 도착하면 알고리즘은 가장 가까운 K-최근접 훈련 데이터 포인트를 확인하고, 이를 사용하여 레이블이 지정되지 않은 새로운 데이터 포인트의 클래스를 분류 및 결정합니다.
K-NN 알고리즘은 다음 감지 방법을 사용하여 가장 가까운 데이터 포인트를 결정합니다.
- 연속 데이터의 거리를 측정하는 유클리드 거리
- 이산 데이터에 대한 두 텍스트 문자열의 근접성 또는 “가까움”을 측정하는 해밍 거리
예를 들어, 훈련 데이터 세트가 A와 B라는 두 개의 클래스 레이블로 구성되어 있다고 가정합니다. 새로운 데이터 포인트가 도착하면 알고리즘은 새 데이터 포인트와 데이터 세트의 각 데이터 포인트 사이의 거리를 계산하고, 새 데이터 포인트에 가장 가까운 최대 수의 포인트를 선택합니다.
따라서 K=3이고 3개의 데이터 포인트 중 2개에 A로 레이블이 지정되었다면, 새 데이터 포인트에는 클래스 A가 레이블로 지정됩니다.
결론적으로, K-NN 알고리즘은 빈번한 데이터 업데이트 요구 사항이 있는 동적 환경에서 가장 잘 작동합니다.
K-NN은 사기 거래를 탐지하고 사기 탐지율을 높이기 위해 금융 및 기업 응용 분야에서 널리 사용되는 이상 징후 탐지 및 텍스트 마이닝 알고리즘입니다.
서포트 벡터 머신(SVM)
서포트 벡터 머신은 주로 회귀 및 분류 문제에 사용되는 지도 학습 기반 이상 징후 탐지 알고리즘입니다.
SVM은 다차원 초평면을 사용하여 데이터를 두 그룹(새로운 데이터와 정상 데이터)으로 분리합니다. 따라서 초평면은 정상 데이터 관찰과 새로운 데이터를 구분하는 결정 경계 역할을 합니다.
출처: www.analyticsvidhya.com
이 두 데이터 포인트 사이의 거리를 마진이라고 합니다.
SVM의 목표는 두 점 사이의 거리를 늘리는 것입니다. 따라서 SVM은 두 클래스 사이의 거리가 최대한 넓어지도록 마진이 최대인 최적의 초평면을 결정합니다.
이상 징후 탐지와 관련하여 SVM은 초평면에서 새로운 데이터 포인트 관찰의 마진을 계산하여 분류합니다.
마진이 설정된 임계값을 초과하면 새로운 관찰은 이상 징후로 분류됩니다. 반면 마진이 임계값보다 작으면 관찰은 정상으로 분류됩니다.
결론적으로, SVM 알고리즘은 고차원의 복잡한 데이터 세트를 처리하는 데 매우 효율적입니다.
고립 포리스트
고립 포리스트는 Random Forest Classifier의 개념을 기반으로 하는 비지도 머신 러닝 이상 징후 탐지 알고리즘입니다.
출처: betterprogramming.pub
이 알고리즘은 무작위 속성을 기반으로 트리 구조의 데이터 세트에서 무작위로 서브샘플링된 데이터를 처리합니다. 여러 의사 결정 트리를 구성하여 관찰을 분리하고, 오염률에 따라 더 적은 수의 트리에서 격리된 경우 특정 관찰을 이상 징후로 간주합니다.
간단히 말해서, 고립 포리스트 알고리즘은 데이터 포인트를 서로 다른 의사 결정 트리로 분할하여 각 관찰이 서로 격리되도록 합니다.
이상 징후는 일반적으로 데이터 포인트 클러스터에서 멀리 떨어져 있으므로, 일반 데이터 포인트와 비교하여 이상 징후를 더 쉽게 식별할 수 있습니다.
고립 포리스트 알고리즘은 범주형 및 숫자형 데이터를 쉽게 처리할 수 있습니다. 결과적으로, 고차원 및 대규모 데이터 세트의 이상 징후를 탐지하는 데 더 빠르고 효율적입니다.
사분위수 범위(IQR)
사분위수 범위(IQR)는 데이터 세트를 사분위수로 나누어 이상점을 찾기 위해 통계적 변동성 또는 통계적 분산을 측정하는 데 사용됩니다.
출처: morioh.com
알고리즘은 데이터를 오름차순으로 정렬하고 집합을 4개의 동일한 부분으로 나눕니다. 이러한 부분을 구분하는 값은 Q1, Q2 및 Q3(첫 번째, 두 번째 및 세 번째 사분위수)입니다.
다음은 이러한 사분위수의 백분위수 분포입니다.
- Q1은 데이터의 25번째 백분위수를 나타냅니다.
- Q2는 데이터의 50번째 백분위수를 나타냅니다.
- Q3은 데이터의 75번째 백분위수를 나타냅니다.
IQR은 데이터의 50%를 나타내는 세 번째(75번째) 백분위수 데이터 세트와 첫 번째(25번째) 백분위수 데이터 세트 간의 차이입니다.
이상 징후 탐지에 IQR을 사용하려면 데이터 세트의 IQR을 계산하고 데이터의 하한 및 상한을 정의하여 이상 징후를 찾아야 합니다.
- 하한선: Q1 – 1.5 * IQR
- 상한선: Q3 + 1.5 * IQR
일반적으로 이러한 경계를 벗어나는 관찰은 이상 징후로 간주됩니다.
IQR 알고리즘은 데이터가 고르지 않게 분포되어 있고 분포가 잘 이해되지 않는 데이터 세트에 효과적입니다.
마지막 말
사이버 보안 위험과 데이터 침해는 앞으로도 계속될 것으로 예상됩니다. 이 위험한 산업은 2023년에 더욱 성장할 것으로 예측되며, IoT 사이버 공격은 2025년까지 두 배로 증가할 것으로 보입니다.
또한, 사이버 범죄로 인해 글로벌 기업과 조직은 2025년까지 연간 약 10조 3천억 달러의 손실을 입을 것으로 예상됩니다.
이러한 이유로, 사기 탐지 및 네트워크 침입 방지를 위해 이상 징후 탐지 기술의 필요성이 점점 더 보편화되고 있습니다.
이 글에서는 데이터 마이닝의 이상 징후, 다양한 유형의 이상 징후, 그리고 머신 러닝 기반 이상 징후 탐지 기술을 사용하여 네트워크 침입을 방지하는 방법에 대해 이해하는 데 도움이 되었기를 바랍니다.
다음으로 기계 학습의 혼동 행렬에 대한 모든 것을 알아볼 수 있습니다.