시계열 데이터 입문 가이드

데이터 축적 과정에서 “시간”은 매우 중요한 요소입니다. 특히 시계열 분석에서는 시간이 데이터의 핵심적인 부분을 차지합니다.

시계열 데이터란 무엇인가?

시계열 데이터는 시간 순서대로 배열된 데이터 요소들의 연속입니다. 이러한 데이터는 관측값들 사이에 순서 의존성을 부여합니다. 오늘날 데이터 중심 세계에서 시계열은 어디에서나 찾아볼 수 있으며, 모든 사건은 시간의 흐름에 따라 발생하므로 우리는 다양한 시계열 데이터와 끊임없이 상호작용합니다.

일반적으로 시계열은 일정한 시간 간격으로 생성되는 것으로 간주하며, 이를 정규 시계열이라 부릅니다. 그러나 시계열 내의 데이터가 반드시 규칙적으로 생성될 필요는 없습니다. 이러한 경우, 데이터가 불규칙한 시간 간격을 두고 발생하거나, 때로는 폭발적으로 생성되는 불규칙 시계열이 존재합니다. 이는 측정이 일정한 간격으로 이루어지지 않을 수 있음을 의미합니다. ATM 인출이나 계좌 입금과 같은 경우가 불규칙 시계열의 좋은 예시입니다.

기술적으로 시계열에서는 하나 이상의 변수가 특정 기간 동안 변합니다. 하나의 변수가 시간에 따라 변하는 경우, 이를 일변량 시계열이라고 합니다. 예를 들어, 매초마다 방의 온도를 측정하는 센서를 생각해보세요. 이 경우, 매 순간(즉, 초)마다 단일 차원의 온도 값만이 생성됩니다. 반대로 시간이 지남에 따라 하나 이상의 변수가 변하는 경우, 이를 다변량 시계열이라고 합니다. 예를 들어, 은행 경제학을 고려해보면, 정책 변경이 한 변수(예: 환매 금리)에 미치는 영향이 다른 변수(예: 시중 은행의 대출 지출)에 어떻게 영향을 미치는지 다변량 시계열을 통해 분석할 수 있습니다.

시계열 데이터는 금융, 지질학, 기상학, 제조, 컴퓨팅, IoT, 물리학 및 사회 과학 등 다양한 분야에서 활용됩니다. 날씨 변화, 출생률, 사망률, 시장 변동, 네트워크 성능 등 다양한 응용 프로그램을 추적하는 데 사용됩니다. 주요 활용 사례로는 모니터링, 예측, 이상 감지 등이 있습니다. 예를 들어, 시계열 예측은 데이터베이스 관리 시스템의 인기를 판단하는 데 중요한 역할을 합니다. 아래 그림은 시계열 그래프에서 2019년부터 2021년까지 DBMS 인기가 증가하는 추세를 보여줍니다.

https://www.influxdata.com/time-series-database/

시계열의 주요 요소

시계열에서 관찰 값에 영향을 주는 요소들은 핵심 구성 요소로 분류됩니다. 이러한 구성 요소는 크게 다음 세 가지 범주로 나눌 수 있습니다.

  • 추세 또는 장기적 움직임
  • 단기적 움직임
  • 계절적 변화
  • 순환 변동
  • 무작위 또는 불규칙한 움직임

경향

장기간에 걸쳐 데이터가 증가하거나 감소하는 경향을 추세 또는 장기 구성 요소라고 합니다. 다만, 상승 또는 하강 움직임이 주어진 시간 범위 내에서 반드시 같은 방향일 필요는 없다는 점에 유의해야 합니다. 추세는 시간의 다른 부분에 걸쳐 상승, 하락 또는 안정적으로 유지될 수 있지만, 전반적인 추세는 항상 상승, 하강 또는 안정적인 패턴을 따릅니다. 이러한 움직임 경향은 농업 생산성, 사망률, 제조된 장치 수, 공장 수 등에서 분명하게 나타납니다.

선형 및 비선형 추세

시간에 대한 시계열 값을 그래프로 표현하면, 데이터 클러스터링 패턴을 기반으로 추세 유형을 파악할 수 있습니다. 데이터 클러스터가 거의 직선에 가깝다면, 이를 선형 추세라고 합니다. 그렇지 않은 경우, 두 변수 간의 변화율이 안정적이지 않거나 일정하지 않기 때문에 데이터 클러스터 패턴이 비선형 추세를 보입니다. 이러한 추세는 곡선 상관관계라고도 불립니다.

단기적 움직임

시계열에서 이러한 구성 요소는 일정 기간 동안 반복되는 경향이 있습니다. 불규칙적인 짧은 버스트를 가지며, 분석 중인 변수에 영향을 미칩니다. 단기적 움직임은 다음 두 가지 범주로 나눌 수 있습니다.

계절적 변화

이러한 변화는 1년 미만의 기간 동안 정기적이고 주기적으로 발생합니다. 12개월 동안 유사하거나 거의 동일한 패턴을 갖는 경향이 있으며, 데이터가 시간별, 일별, 주별, 월별 또는 분기별 등 정기적으로 기록되는 경우 시계열의 일부가 됩니다.

계절적 변화는 인위적이거나 자연적으로 발생할 수 있습니다. 계절이나 기후 조건은 이러한 변동에 중요한 역할을 합니다. 예를 들어, 농작물 생산은 전적으로 계절에 의존하며, 우산이나 우비 시장은 우기에 따라 달라지는 반면, 냉방기나 에어컨 판매는 여름에 최고조에 달합니다. 인위적인 예로는 축제, 파티, 결혼식과 같은 행사들이 있으며, 이러한 단기적 이벤트는 매년 반복됩니다.

순환 변동

1년 이상의 기간 동안 발생하는 시계열 변동을 순환 변동이라고 합니다. 비즈니스에서 하나의 완전한 기간을 “비즈니스 사이클”로 간주합니다. 비즈니스 성과의 급증 또는 감소는 경제 구조, 비즈니스 관리 및 기타 상호 작용 요인과 같은 다양한 요인에 따라 달라집니다. 이러한 주기적인 비즈니스 변동은 정기적일 수 있지만, 주기는 명확하지 않습니다. 일반적으로 기업은 번영, 불황, 침체, 회복이라는 네 단계의 순환 과정을 거칩니다.

비즈니스 개발은 생성된 “순차적 데이터 포인트”에 크게 의존하므로 이러한 주기적 변동은 시계열 패턴에 필수적입니다.

무작위 또는 불규칙한 움직임

무작위 요소는 관찰 중인 변수에 상당한 변화를 일으킵니다. 정해진 패턴이 없는 순전히 불규칙한 변동으로, 예를 들어 지진, 홍수, 기근 및 기타 재해와 같이 예측할 수 없고 변덕스러운 사건들이 이에 해당합니다.

위에서 설명한 무작위 사건들은 과거 시계열 데이터를 분석하여 미래에 발생할 수 있는 실제 시나리오에 더 잘 대처할 수 있도록 돕습니다.

시계열의 유형

시계열 데이터는 결정적(deterministic), 비결정적(non-deterministic), 고정(stationary) 및 비정적(non-stationary)의 네 가지 유형으로 나눌 수 있습니다. 각 유형에 대해 자세히 살펴보겠습니다.

#1. 결정적 시계열

결정적 시계열은 분석적인 표현으로 설명할 수 있으며, 무작위 또는 확률적 측면을 포함하지 않습니다. 수학적으로 모든 시간 간격에서 테일러 급수 전개로 정확하게 표현할 수 있습니다. 이는 임의의 시점에서 모든 파생물이 알려져 있다면 가능합니다. 이러한 파생물은 특정 시점의 과거와 미래를 명확하게 지정합니다. 모든 조건이 충족된다면, 미래 행동을 정확하게 예측하고 과거에 어떻게 행동했는지 분석할 수 있습니다.

#2. 비결정적 시계열

비결정적 시계열에는 명시적인 설명을 방해하는 무작위 요소가 포함되어 있습니다. 따라서 분석 표현식만으로는 이러한 시계열을 표현하기에 충분하지 않습니다. 시계열이 비결정적인 이유는 다음과 같습니다.

  • 이를 설명하는 데 필요한 정보가 전체적으로 이용 가능하지 않습니다. 데이터가 원칙적으로 존재할 수 있지만, 명시적으로 정량화할 수 있는 것으로 취급할 수는 없습니다.
  • 데이터 생성 과정 자체가 본질적으로 무작위적입니다.

무작위 요소로 인해 비결정적 시계열은 확률 법칙을 따릅니다. 따라서 데이터는 통계적 용어로 다루어지며, 확률 분포 및 다양한 형태의 평균(분산, 즉 분산의 수단과 척도 포함)으로 정의됩니다.

#3. 고정 시계열

고정 시계열에서 평균, 분산 등과 같은 통계적 속성은 시간에 의존하지 않습니다. 정적 시계열은 통계적 속성이 과거에 관찰된 것과 동일하게 유지될 것이라고 확실하게 말할 수 있으므로 예측하기가 더 쉽습니다. 따라서 다양한 통계적 예측 방법은 시계열이 거의 고정되어 있다는 가정에 기반합니다. 즉, 시계열이 간단한 수학적 변환을 통해 대략적으로 고정된 것으로 간주될 수 있다는 것을 의미합니다.

#4. 비정상 시계열

비정상 시계열에서는 통계적 속성이 시간에 따라 달라집니다. 따라서 추세나 계절성이 있는 시계열은 추세 및 계절성이 다른 시간 간격에서 시계열 값에 영향을 줄 수 있으므로 비정상적 범주에 속합니다. 고정되지 않은 시계열은 예측 불가능한 데이터를 설명하므로 모델링이나 예측을 어렵게 만듭니다.

https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

시계열 분석 및 예측

시계열 분석과 예측은 다양한 종류의 중요한 프로세스 및 객체의 진화와 역동성을 관찰, 분석, 연구하는 데 유용한 도구입니다. 각각에 대해 좀 더 자세히 살펴보겠습니다.

시계열 분석

시계열 분석은 특정 기간 동안 수집된 데이터를 분석하는 과정으로 정의됩니다. 이 분석에서 데이터 분석가는 고정된 기간 동안 일정한 간격으로 데이터를 기록합니다. 데이터 관찰 속도, 즉 시간 간격은 몇 초에서 몇 년까지 다양할 수 있습니다.

시계열 데이터는 특정 시간 범위 동안 변동 패턴에 대한 상세한 분석을 제공하므로, 분석 중인 변수를 설명합니다. 분석에 필요한 매개변수는 도메인과 분야에 따라 다를 수 있습니다. 몇 가지 예는 다음과 같습니다.

  • 과학 기기: 하루 동안 기록되는 데이터
  • 상업용 웹사이트: 일일 고객 방문 수
  • 주식 시장: 주당 가치 공유
  • 계절: 연간 강우일수

일관성과 신뢰성을 확보하기 위해 시계열 분석은 대량의 데이터 포인트를 다룹니다. 좋은 표본 크기는 발견된 추세나 패턴의 진정성을 보여줍니다.

또한, 시계열 분석은 과거에 기록된 데이터를 기반으로 미래 이벤트를 예측하는 데에도 유용합니다.

시계열 예측

시계열 분석을 통해 기업은 시간 경과에 따른 추세 변동의 근본 원인을 파악할 수 있습니다. 데이터를 확보하면 기업은 익숙하지 않은 추세에 대처하고 다가오는 이벤트를 예측하는 방법을 더 잘 이해하기 위해 연구를 진행할 수 있습니다. 기업은 일반적으로 데이터 시각화 기술을 사용하여 데이터에서 특이점을 확인합니다.

시계열 예측은 다음 두 가지 필수 요소에 중점을 둡니다.

  • 과거 데이터 행동을 기반으로 미래 사건을 예측합니다.
  • 향후 추세가 과거 데이터 패턴과 유사할 것이라고 가정합니다.

예측에서 주요 목표는 데이터 포인트가 미래에 어떻게 동일하게 유지되거나 달라질지를 예측하는 것입니다. 다음은 시계열 분석 및 예측의 미묘한 차이를 더 잘 이해하기 위한 다양한 산업 분야의 몇 가지 예입니다.

  • 주식 시장: 매일 종가를 예측합니다.
  • 판매: 매일 매장의 제품 판매량을 예측합니다.
  • 가격: 매일 평균 연료 가격을 예측합니다.

시계열 예측에 사용되는 일반적인 통계 기법에는 단순 이동 평균(SMA), 지수 평활(SES), 자동 회귀 통합 이동 평균(ARIMA) 및 신경망(NN) 등이 있습니다.

클라우드의 시계열 데이터

시계열 데이터의 가치를 실현하기 위해 기업은 데이터를 신속하게 저장하고 쿼리할 수 있어야 합니다. 자본 시장 회사는 실시간 데이터 분석을 사용하여 영향력 있는 비즈니스 결정을 내리기 위해 대량의 기록 및 스트리밍 데이터에 의존합니다. 여기에는 주가 취약성 예측, 순자본 요건 결정 또는 환율 예측이 포함될 수 있습니다. 유연성을 제공하고 데이터를 원활하게 처리하기 위해 많은 회사가 시계열 데이터베이스를 클라우드로 이전하는 방법을 선택하고 있습니다.

시계열 데이터베이스를 클라우드로 이전함으로써 조직은 필요에 따라 무제한 리소스에 액세스할 수 있습니다. 이를 통해 기업은 수백 개의 코어를 활용하여 대기 시간 문제 없이 네트워크 처리량을 최대화하는 작업을 수행할 수 있습니다.

클라우드 인프라의 시계열 데이터베이스는 컴퓨팅 집약적인 작업에 적합합니다. 여기에는 실시간 시장 추세에 따라 위험 계산을 수행하는 것이 포함됩니다. 금융 회사는 데이터 센터의 오버헤드를 줄이고 리소스 활용에 집중하여 업무 생산성을 높일 수 있습니다.

AWS와 같은 클라우드 공급업체에서 제공하는 Amazon Timestream은 시계열 데이터 세트를 손쉽게 로드, 저장 및 분석할 수 있는 시계열 데이터베이스 서비스입니다. 이벤트 발생 시 기능을 제공하기 위해 트랜잭션 집약적인 작업, 실시간 분석 도구 및 데이터 스트리밍 기능을 관리하기 위한 스토리지를 제공합니다.

따라서 클라우드 인프라는 시계열 데이터의 이점을 증폭시키고 확장합니다.

시계열의 응용

시계열 모델은 다음 두 가지 목적으로 사용됩니다.

  • 특정 데이터 패턴을 생성한 기본 요인을 이해합니다.
  • 분석을 기반으로 예측 및 모니터링할 모델을 적합합니다.

시계열 데이터의 몇 가지 응용 사례를 살펴보겠습니다.

#1. 금융 및 비즈니스 분야의 시계열

모든 재정, 비즈니스 및 투자 결정은 현재 시장 동향과 수요 예측을 기반으로 합니다. 시계열 데이터는 역동적인 금융 시장을 설명, 연관 및 예측하는 데 사용됩니다. 재무 전문가는 재무 데이터를 검토하여 위험을 완화하고 가격을 안정화하며 거래에 도움이 되는 애플리케이션에 대한 예측을 제공할 수 있습니다.

시계열 분석은 재무 분석에서 중요한 역할을 합니다. 금리 예측, 주식 시장 변동성 예측 등에 사용됩니다. 비즈니스 이해 관계자와 정책 입안자는 제조, 구매, 리소스 할당에 대한 정보에 입각한 결정을 내리고 비즈니스 운영을 최적화할 수 있습니다.

이 분석은 투자 부문에서 보안 가격과 시간 경과에 따른 변동을 모니터링하는 데 효과적으로 사용됩니다. 보안 가격은 단기(시간별 또는 일별 기록 데이터) 또는 장기(몇 달 또는 몇 년에 걸쳐 관찰)적으로 관찰할 수 있습니다. 시계열 분석은 보안, 자산 또는 경제 변수가 장기간에 걸쳐 어떻게 수행되는지 추적하는 데 유용한 도구입니다.

#2. 의료 분야의 시계열

의료 분야는 데이터 기반 분야로 빠르게 성장하고 있습니다. 재정 및 비즈니스 분석 외에도 의료 분야는 시계열 분석을 광범위하게 활용하고 있습니다.

암 환자를 치료하는 과정에서 시계열 데이터, 의학적으로 정렬된 절차 및 데이터 마이닝 기술의 시너지 효과가 필요한 시나리오를 고려해보십시오. 이러한 하이브리드 프레임워크는 수집된 시계열 데이터(즉, 환자의 X선 영상)에서 특징 추출 기능을 활용하여 의료 협회에서 제공하는 치료에 대한 환자의 진행 및 반응을 추적하는 데 사용될 수 있습니다.

의료 분야에서는 끊임없이 변화하는 시계열 데이터에서 결론을 도출하는 것이 매우 중요합니다. 또한 고급 의료 환경에서는 환자의 건강을 더 잘 파악하기 위해 시간이 지남에 따라 환자의 기록을 연결해야 합니다. 또한 환자의 건강 상태를 보다 명확하게 파악할 수 있도록 환자의 건강 매개변수를 정기적이고 정확하게 기록해야 합니다.

고급 의료 장비가 등장하면서 시계열 분석이 의료 분야에서 자리를 잡았습니다. 다음 예를 살펴보십시오.

  • ECG 장치: 심장의 전기 펄스를 기록하여 심장 상태를 모니터링하기 위해 발명된 장치입니다.
  • EEG 장치: 뇌의 전기 활동을 정량화하는 데 사용되는 장치입니다.

이러한 장치를 통해 의사는 시계열 분석을 수행하여 더 빠르고 효과적이며 정확한 의료 진단을 내릴 수 있습니다.

또한 웨어러블 센서와 같은 IoT 장치와 휴대용 건강 관리 장치의 등장으로 사람들은 이제 최소한의 입력으로 시간이 지남에 따라 건강 변수를 정기적으로 측정할 수 있습니다. 이는 질병에 걸린 사람과 건강한 사람 모두를 위해 시간이 지남에 따른 의료 데이터의 일관된 데이터 수집으로 이어집니다.

#3. 천문학 분야의 시계열

천문학과 천체 물리학은 시계열 데이터가 광범위하게 활용되는 현대 분야입니다.

기본적으로 천문학은 우주 물체의 궤적과 천체를 계획하고 정확한 측정을 수행하여 지구 대기권 너머의 우주를 더 잘 이해하는 학문입니다. 이러한 필요로 인해 천문학 전문가는 복잡한 기기를 보정하고 구성하며, 관심 있는 천체를 연구하면서 시계열 데이터를 능숙하게 처리합니다.

시계열 데이터는 오랫동안 천문학 분야와 연관되어 왔습니다. 기원전 800년에 흑점 시계열 데이터가 일정한 간격으로 수집되었습니다. 그 이후 시계열 분석은 다음과 같은 목적으로 사용되었습니다.

  • 별과의 거리를 기반으로 멀리 있는 별을 발견하고,
  • 우리 우주의 기원을 더 잘 이해하기 위해 초신성과 같은 우주 사건을 관찰합니다.

이러한 경우, 시계열 데이터는 별, 천체 또는 물체에서 방출되는 빛의 파장 및 강도와 관련이 있습니다. 천문학자들은 이러한 실시간 스트리밍 데이터를 지속적으로 모니터링하여 우주 사건을 실시간으로 감지합니다.

최근에는 데이터 마이닝, 머신 러닝, 전산 지능 및 통계 등 다양한 분야를 결합한 천체 정보학 및 천체 통계학과 같은 연구 분야가 등장했습니다. 이러한 새로운 연구 분야에서 시계열 데이터의 역할은 천체를 빠르고 효율적으로 감지하고 분류하는 데 있습니다.

#4. 날씨 예측 분야의 시계열

아리스토텔레스는 고대 날씨 변화에서 관찰된 원인과 결과를 더 잘 이해하기 위해 날씨 패턴을 광범위하게 연구했습니다. 시간이 지남에 따라 과학자들은 대기 변수를 계산하기 위해 “기압계”와 같은 기기에 날씨 관련 데이터를 기록하기 시작했습니다. 데이터는 일정한 간격으로 수집되어 서로 다른 위치에 보관되었습니다.

시간이 흐르면서 일기 예보가 신문에 실리기 시작했습니다. 오늘날에는 정확한 날씨 변수를 수집하기 위해 전 세계 여러 지역에 일기 예보 스테이션이 설치되어 있습니다.

이러한 스테이션에는 다양한 위치에서 날씨 데이터를 수집하고 연관시키기 위해 상호 연결된 고급 기능 장치가 있습니다. 연관된 데이터는 필요에 따라 기상 조건을 예측하는 데 사용됩니다.

#5. 비즈니스 개발 분야의 시계열

시계열 데이터를 통해 기업은 비즈니스 의사 결정을 내릴 수 있습니다. 이는 과거 데이터를 분석하여 미래 이벤트를 도출하고 가능한 가능성을 파악함으로써 가능합니다. 과거 데이터 패턴은 다음 매개변수를 도출하는 데 사용됩니다.

  • 비즈니스 성장: 전반적인 재무 및 비즈니스 성과를 평가하고 성장을 측정하려면 시계열 데이터가 가장 적합하고 신뢰할 수 있는 자산입니다.
  • 추세 추정: 새로운 추세를 추정하기 위해 다양한 시계열 방법을 사용할 수 있습니다. 예를 들어, 특정 전자 기기의 판매 증가 또는 감소를 파악하기 위해 일정 기간 동안 데이터를 관찰하여 분석하는 방법을 고려해 볼 수 있습니다.
  • 계절 패턴 공개: 기록된 데이터 포인트는 데이터 예측에 도움이 될 수 있는 변동 및 계절 패턴을 나타낼 수 있습니다. 획득한 데이터 정보는 제품 가격이 계절에 따라 변동하는 시장에서 중요한 역할을 합니다. 이러한 데이터는 기업이 더 나은 제품 계획 및 개발에 도움이 될 수 있습니다.

결론 👨‍🏫

요약하자면, 시계열 데이터는 일정 기간 동안 수집된 복잡한 데이터 포인트의 특성이라고 볼 수 있습니다. 시계열 분석, 모델링 및 예측은 IoT 장치, 스마트 가전 및 휴대용 장치의 등장으로 인해 일상생활에서 필수적인 부분이 되었습니다. 게다가, 시계열 데이터는 의료, 천체 물리학, 경제, 엔지니어링, 비즈니스 등 다양한 분야에서 활용되고 있습니다.