시계열 데이터 입문 가이드

데이터 축적에 있어 “시간”은 중요한 변수입니다. 시계열 분석에서 시간은 데이터의 중요한 요소입니다.

시계열 데이터란?

시계열 데이터는 시간순으로 정렬된 일련의 데이터 요소를 나타냅니다. 일련의 관찰 사이에 순서 의존성을 도입합니다. 시계열은 오늘날의 데이터 중심 세계에서 어디에나 있습니다. 모든 이벤트는 시간의 흐름을 따르기 때문에 다양한 시계열 데이터와 지속적으로 상호 작용합니다.

시계열은 일반적으로 일정한 시간 간격으로 생성되는 것으로 가정하며 이를 정규 시계열이라고 합니다. 그러나 해당 시계열 내의 데이터는 정기적으로 생성될 필요가 없습니다. 이러한 경우에는 데이터가 일시적으로 단계별 시퀀스를 따르는 불규칙한 시계열이 포함됩니다. 이는 측정이 일정한 간격으로 발생하지 않을 수 있음을 의미합니다. 그러나 데이터는 불연속 시간 간격으로 또는 버스트로 생성될 수 있습니다. ATM 인출 또는 계좌 입금은 불규칙한 시계열의 예입니다.

기술적으로 시계열에서 하나 이상의 변수는 주어진 기간 동안 변경됩니다. 단일 변수가 시간에 따라 변하는 경우 일변량 시계열이라고 합니다. 예를 들어 매초 방의 온도를 측정하는 센서를 생각해 보십시오. 여기서는 매 순간(즉, 초)마다 1차원적 온도 값만 생성된다. 반대로 시간이 지남에 따라 하나 이상의 변수가 변하는 경우 이를 다변량 시계열이라고 합니다. 예를 들어 은행 경제학을 생각해 보십시오. 이러한 경우, repo 금리와 같은 한 변수에 대한 정책 변경이 다른 변수(즉, 상업 은행의 대출 지출)에 어떻게 영향을 미칠 수 있는지 이해하기 위해 다변량 시계열이 사용됩니다.

시계열 데이터는 금융, 지질학, 기상학, 제조에서 컴퓨팅, IoT, 물리 및 사회 과학에 이르기까지 모든 분야에서 적용됩니다. 날씨 변화, 출생률, 사망률, 시장 변동, 네트워크 성능 및 기타 여러 응용 프로그램을 추적하는 데 사용됩니다. 주요 사용 사례 중 일부는 모니터링, 예측 및 이상 탐지를 포함합니다. 예를 들어 시계열 예측은 데이터베이스 관리 시스템의 인기를 결정하는 데 중요한 역할을 합니다. 아래 그림은 시계열 도표에서 수년(2019-2021년)에 걸쳐 DBMS의 인기 증가를 보여줍니다.

https://www.influxdata.com/time-series-database/

시계열의 주요 구성 요소

시계열에서 관찰 값에 영향을 미치는 요소는 핵심 구성 요소로 취급됩니다. 구성 요소의 세 가지 범주는 다음과 같습니다.

  • 추세 또는 장기 움직임
  • 단기 이동
  • 계절 변화
  • 순환 변형
  • 무작위 또는 불규칙한 움직임
  • 경향

    장기간에 걸쳐 데이터가 증가하거나 감소하는 경향을 추세 또는 장기 구성 요소라고 합니다. 그러나 상향 또는 하향 이동이 주어진 시간 범위에서 반드시 같은 방향일 필요는 없다는 점에 유의해야 합니다.

    경향은 시간의 다른 부분에 걸쳐 상승, 하락 또는 안정적으로 유지될 수 있습니다. 그러나 전반적인 추세는 항상 상향, 하향 또는 안정적인 패턴과 같아야 합니다. 이러한 이동 경향은 농업 생산성, 사망률, 제조된 장치, 공장 수 등과 같은 예에서 분명합니다.

    선형 및 비선형 추세

    그래프에 시간에 대한 시계열 값을 플로팅하면 데이터 클러스터링 패턴을 기반으로 추세 유형을 알 수 있습니다. 데이터 클러스터가 거의 직선에 가까운 경우 추세를 선형 추세라고 합니다. 그렇지 않으면 두 변수 간의 변화 비율이 안정적이지 않거나 일정하지 않기 때문에 데이터 클러스터 패턴이 비선형 추세를 보입니다. 따라서 이러한 추세를 곡선 상관관계라고도 합니다.

    단기 이동

    시계열에서 이러한 구성 요소는 일정 기간 동안 반복되는 경향이 있습니다. 그들은 불규칙한 짧은 버스트를 가지며 연구 중인 변수에 영향을 미칩니다. 단기 움직임의 두 가지 범주 유형은 다음과 같습니다.

    계절 변화

    이러한 버전은 1년 미만의 기간 동안 정기적으로 주기적으로 작동합니다. 그들은 12개월 동안 유사하거나 거의 동일한 패턴을 갖는 경향이 있습니다. 이러한 변동은 데이터가 정기적으로(예: 시간별, 일별, 주별, 월별 또는 분기별) 기록되는 경우 시계열의 일부가 됩니다.

    계절 변화는 인위적이거나 자연적으로 발생합니다. 다른 계절이나 기후 조건은 이러한 변동에 중요한 역할을 합니다. 예를 들어 농작물 생산은 전적으로 계절에 의존합니다. 마찬가지로 우산이나 비옷 시장은 우기에 따라 달라지는 반면 쿨러와 에어컨 판매는 여름 시즌에 최고조에 달합니다.

      iPhone의 비디오에서 HD 사진 추출

    인간이 만든 대회에는 축제, 파티, 결혼과 같은 행사가 포함됩니다. 이러한 단기 이벤트는 해마다 반복됩니다.

    순환 변형

    1년 이상의 기간 동안 작동하는 경향이 있는 시계열 변동을 순환 변동이라고 합니다. 비즈니스의 경우 하나의 완전한 기간을 “비즈니스 사이클”로 간주합니다. 비즈니스 성과의 급증 또는 감소는 경제 구조, 비즈니스 관리 및 기타 상호 작용 요인과 같은 다양한 요인에 따라 달라집니다. 이러한 주기적인 비즈니스 변동은 정기적일 수 있지만 주기적이지는 않습니다. 일반적으로 기업은 번영, 불황, 침체, 부흥의 4단계 순환 과정을 거칩니다.

    비즈니스 개발이 생성된 “순차적 데이터 포인트”에 크게 의존하기 때문에 이러한 주기적 변동은 시계열 패턴에 필수적입니다.

    무작위 또는 불규칙한 움직임

    랜덤 구성 요소는 관찰 중인 변수에 상당한 변화를 일으킵니다. 정해진 패턴이 없는 순전히 불규칙한 변동입니다. 예를 들어 지진, 홍수, 기근 및 기타 재해와 같이 예측할 수 없고 예측할 수 없으며 변덕스럽습니다.

    위에서 설명한 무작위 이벤트는 소스 시계열 데이터를 사용하여 분석하여 미래에 발생할 수 있는 실제 시나리오를 더 잘 처리합니다.

    시계열의 유형

    시계열 데이터는 결정적(deterministic), 비결정적(non-deterministic), 고정(stationary) 및 비정적(non-stationary)의 네 가지 유형으로 나눌 수 있습니다. 각 유형에 대해 자세히 살펴보겠습니다.

    #1. 결정적 시계열

    결정적 시계열은 분석식으로 설명할 수 있습니다. 무작위 또는 확률적 측면을 포함하지 않습니다. 수학적으로 모든 시간 간격에 대해 Taylor 급수 확장으로 정확하게 표현할 수 있습니다. 모든 파생 상품이 임의의 시점에 알려지면 가능합니다. 이러한 파생 상품은 당시의 과거와 미래를 명시적으로 지정합니다. 모든 조건이 충족되면 미래의 행동을 정확하게 예측하고 과거에 어떻게 행동했는지 분석할 수 있습니다.

    #2. 비결정적 시계열

    비결정적 시계열에는 명시적 설명을 방해하는 임의의 측면이 관련되어 있습니다. 따라서 분석 표현식은 이러한 시계열을 표현하기에 충분한 솔루션이 아닙니다. 다음과 같은 이유로 시계열이 비결정적일 수 있습니다.

  • 그것을 설명하는 데 필요한 정보는 전체적으로 사용할 수 없습니다. 데이터가 원칙적으로 존재할 수 있지만 명시적으로 정량화할 수 있는 것으로 취급할 수는 없습니다.
  • 데이터 생성 프로세스는 본질적으로 무작위입니다.
  • 무작위 요소로 인해 비결정론적 시계열은 확률 법칙을 따릅니다. 따라서 데이터는 통계적 용어로 다루어집니다. 즉, 데이터는 확률 분포와 다양한 형태의 평균으로 정의됩니다. 여기에는 분산, 즉 분산의 수단과 척도가 포함됩니다.

    #삼. 고정 시계열

    고정 시계열에서 평균, 분산 등과 같은 통계적 속성은 시간 측면에 의존하지 않습니다. 정적 시계열은 통계적 속성이 과거에 관찰된 것과 동일하게 유지될 것이라고 확실하게 말할 수 있으므로 예측하기가 더 쉽습니다. 따라서 다양한 통계적 예측 방법은 시계열이 거의 정지되어 있다는 주장에 기반합니다. 이는 시계열이 간단한 수학적 변환을 적용하여 근사적으로 고정된 것으로 간주될 수 있음을 의미합니다.

    #4. 비정상 시계열

    비정상 시리즈에서 통계적 속성은 시간에 따라 달라집니다. 따라서 추세 또는 계절성이 있는 시계열은 추세 및 계절성이 다른 시간 간격에서 시계열의 값에 영향을 줄 수 있으므로 비정상적 범주에 속합니다. 고정되지 않은 시계열은 예측할 수 없는 데이터를 설명하여 모델링 또는 예측을 방지합니다.

    https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

    시계열 분석 및 예측

    시계열 분석 및 예측은 다양한 종류의 중요한 프로세스 및 개체의 진화 및 역학을 관찰, 분석 및 연구하기 위한 편리한 도구입니다. 각각에 대해 더 자세히 살펴보겠습니다.

    시계열 분석

    시계열 분석은 일정 기간 동안 수집된 데이터를 분석하는 프로세스로 정의됩니다. 여기에서 데이터 분석가는 고정된 기간 동안 일정한 간격으로 데이터를 기록합니다. 데이터 관찰 속도, 즉 시간 간격은 몇 초에서 몇 년까지 다양할 수 있습니다.

    시계열 데이터는 특정 시간 범위 동안 변동 패턴에 대한 자세한 분석을 제공하므로 검사 중인 변수를 설명합니다. 분석에 필요한 매개변수는 도메인과 분야에 따라 다를 수 있습니다. 일부 예에는 다음이 포함될 수 있습니다.

    • 과학 기기 – 하루에 기록되는 데이터
    • 상업용 웹사이트 – 일일 고객 방문
    • 주식 시장 – 주당 가치 공유
    • 계절 – 연간 비오는 날
      이미지에서 배경을 제거하는 14가지 최고의 도구

    일관성과 신뢰성을 보장하기 위해 시계열 분석은 대량의 데이터 포인트에서 작동합니다. 좋은 표본 크기는 발견된 추세나 패턴의 진정성을 미묘하게 표현한 것입니다.

    또한 시계열 분석은 과거에 기록된 데이터를 기반으로 미래 이벤트를 예측하는 데에도 적합합니다.

    시계열 예측

    시계열 분석을 통해 조직은 시간 경과에 따른 추세 변동의 근본 원인을 식별할 수 있습니다. 데이터를 손에 넣으면 기업은 익숙하지 않은 트렌드를 해결하고 다가오는 이벤트를 예측하는 방법을 더 잘 이해하기 위해 더 연구하고 연구할 수 있습니다. 회사는 일반적으로 데이터 시각화 기술을 사용하여 데이터의 이러한 이상을 확인합니다.

    시계열 예측은 두 가지 필수 요소를 중심으로 진행됩니다.

  • 과거 데이터 동작을 기반으로 미래의 사건을 예측합니다.
  • 향후 추세가 과거 데이터 패턴과 유사할 것이라고 가정합니다.
  • 예측에서 주요 목표는 본질적으로 데이터 포인트가 미래에 어떻게 계속 동일하게 유지되거나 달라질 것인지를 예측하는 것입니다. 다음은 시계열 분석 및 예측의 뉘앙스를 더 잘 이해하기 위한 다양한 산업 부문의 몇 가지 예입니다.

    • 주식 시장 – 매일 종가를 예측합니다.
    • 판매 – 매일 매장의 제품 판매를 예측합니다.
    • 가격 – 매일 평균 연료 가격을 예측합니다.

    시계열 예측에 사용되는 일반적인 통계 기법으로는 단순 이동 평균(SMA), 지수 평활(SES), 자동 회귀 통합 이동 평균(ARIMA) 및 신경망(NN)이 있습니다.

    클라우드의 시계열 데이터

    시계열 데이터의 가치를 밝히기 위해 기업은 데이터를 빠르게 저장하고 쿼리할 수 있어야 합니다. 자본 시장 회사는 실시간 데이터 분석을 사용하고 영향력 있는 비즈니스 결정을 내리기 위해 대량의 기록 및 스트리밍 데이터에 의존합니다. 여기에는 주가의 취약성 예측, 순자본 요건 결정 또는 환율 예측이 포함될 수 있습니다. 유연성을 제공하고 데이터를 원활하게 처리하기 위해 많은 회사에서 시계열 데이터베이스를 클라우드로 마이그레이션하는 방법을 선택하고 있습니다.

    시계열 데이터베이스를 클라우드로 마이그레이션함으로써 조직은 주문형으로 무제한 리소스에 액세스할 수 있습니다. 이를 통해 회사는 수백 개의 코어를 활용하여 대기 시간 문제 없이 네트워크 처리량을 최대화하는 작업을 수행할 수 있습니다.

    클라우드 인프라의 시계열 데이터베이스는 컴퓨팅 집약적인 워크로드에 적합합니다. 여기에는 실시간 시장 추세에 대응하여 위험 계산을 수행하는 것이 포함됩니다. 금융 회사는 데이터 센터 오버헤드를 없애고 리소스 활용에 집중하여 워크로드의 생산성을 향상시킬 수 있습니다.

    AWS와 같은 클라우드 벤더가 제공하는 아마존 타임스트림, 시계열 데이터 세트를 쉽게 로드, 저장 및 분석할 수 있는 시계열 데이터베이스 서비스입니다. 트랜잭션 집약적 워크로드, 실시간 분석 도구 및 데이터 스트리밍 기능을 관리하기 위한 스토리지를 제공하여 이벤트가 발생할 때 기능을 제공합니다.

    따라서 클라우드 인프라는 시계열 데이터의 이점을 증폭하고 확장합니다.

    시계열의 응용

    시계열 모델은 두 가지 용도로 사용됩니다.

  • 특정 데이터 패턴을 생성한 기본 요인을 이해합니다.
  • 분석을 기반으로 예측 및 모니터링할 모델을 적합합니다.
  • 시계열 데이터의 일부 애플리케이션 사용 사례를 살펴보겠습니다.

    #1. 금융 및 비즈니스 도메인의 시계열

    모든 재무, 비즈니스 및 투자 결정은 현재 시장 동향 및 수요 예측을 기반으로 이루어집니다. 시계열 데이터는 역동적인 금융 시장을 설명, 연관 및 예측하는 데 사용됩니다. 재무 전문가는 재무 데이터를 검토하여 위험 완화, 가격 안정화 및 거래에 도움이 되는 애플리케이션에 대한 예측을 제공할 수 있습니다.

    시계열 분석은 재무 분석에서 중요한 역할을 합니다. 금리 예측, 주식 시장의 변동성 예측 등에 사용됩니다. 비즈니스 이해 관계자와 정책 입안자는 제조, 구매, 리소스 할당에 대해 정보에 입각한 결정을 내리고 비즈니스 운영을 최적화할 수 있습니다.

    이 분석은 투자 부문에서 효과적으로 사용되어 보안 비율과 시간 경과에 따른 변동을 모니터링합니다. 보안 가격은 또한 단기(즉, 시간당 또는 일당 기록 데이터) 또는 장기적(즉, 몇 달 또는 몇 년에 걸쳐 관찰)에 대해 관찰할 수 있습니다. 시계열 분석은 보안, 자산 또는 경제 변수가 장기간에 걸쳐 수행되는 방식을 추적하는 데 유용한 도구입니다.

    #2. 의료 분야의 시계열

    의료는 데이터 기반 분야로 빠르게 부상하고 있습니다. 재무 및 비즈니스 분석 외에도 의료 영역은 시계열 분석을 크게 활용하고 있습니다.

      Google 기념일 로고를 오프라인으로 저장하는 방법

    암 환자를 치료하는 동안 시계열 데이터, 의학적으로 정렬된 절차 및 데이터 마이닝 기술의 시너지 효과가 필요한 시나리오를 고려하십시오. 이러한 하이브리드 프레임워크는 수집된 시계열 데이터(즉, 환자의 x-레이 이미지)에서 특징 추출 기능을 활용하여 의료 협회에서 제공하는 치료에 대한 환자의 진행 및 반응을 추적하는 데 사용될 수 있습니다.

    의료 분야에서는 끊임없이 변화하는 시계열 데이터에서 추론을 도출하는 것이 매우 중요합니다. 또한 고급 의료 관행에서는 환자의 건강에 대한 더 나은 가시성을 위해 시간이 지남에 따라 환자 기록을 연결해야 합니다. 또한 환자의 건강 상태를 보다 명확하게 파악할 수 있도록 환자의 건강 매개변수를 정기적으로 정확하게 기록해야 합니다.

    고급 의료 기기가 등장하면서 시계열 분석이 의료 분야에서 자리를 잡았습니다. 아래 예를 고려하십시오.

    • ECG 장치: 심장의 전기 펄스를 기록하여 심장 상태를 모니터링하기 위해 발명된 장치입니다.
    • EEG 장치: 뇌의 전기 활동을 정량화하는 데 사용되는 장치.

    이러한 장치를 통해 의사는 더 빠르고 효과적이며 정확한 의료 진단을 위해 시계열 분석을 수행할 수 있습니다.

    또한 웨어러블 센서와 같은 IoT 장치와 휴대용 건강 관리 장치의 출현으로 사람들은 이제 최소한의 입력으로 시간이 지남에 따라 건강 변수를 정기적으로 측정할 수 있습니다. 이것은 아픈 사람과 건강한 사람 모두를 위한 시간 의존적 의료 데이터의 일관된 데이터 수집으로 이어집니다.

    #삼. 천문학의 시계열

    천문학과 천체물리학은 시계열 데이터가 크게 활용되는 두 가지 현대 분야입니다.

    기본적으로 천문학은 우주 물체의 궤적과 천체를 계획하고 정확한 측정을 수행하여 지구 대기권 너머의 우주를 더 잘 이해하는 것입니다. 이러한 요구 사항으로 인해 천문학 전문가는 복잡한 기기를 보정 및 구성하고 관심 있는 천체를 연구하면서 시계열 데이터를 능숙하게 처리합니다.

    시계열 데이터는 오랫동안 천문학 분야와 연관되어 왔습니다. 기원전 800년에 흑점 시계열 데이터가 일정한 간격으로 수집되었습니다. 그 이후로 시계열 분석을 사용하여

    • 항성 거리를 기반으로 멀리 있는 별을 발견하고,
    • 우리 우주의 기원을 더 잘 이해하기 위해 초신성과 같은 우주 사건을 관찰하십시오.

    이 경우 시계열 데이터는 별, 천체 또는 물체에서 방출되는 빛의 파장 및 강도와 관련됩니다. 천문학자들은 이러한 실시간 스트리밍 데이터를 지속적으로 모니터링하여 우주 사건이 발생하는 즉시 실시간으로 감지합니다.

    최근에는 데이터 마이닝, 기계 학습, 전산 지능 및 통계와 같은 다양한 분야를 혼합한 천체 정보학 및 천체 통계학과 같은 연구 분야가 등장했습니다. 이러한 새로운 연구 분야에서 시계열 데이터의 역할은 천체를 빠르고 효율적으로 감지하고 분류하는 것입니다.

    #4. 날씨 예측의 시계열

    아리스토텔레스는 고대의 날씨 변화에서 관찰된 원인과 결과를 더 잘 이해하기 위해 날씨 패턴을 광범위하게 연구했습니다. 날이 갈수록 과학자들은 대기 변수를 계산하기 위해 “기압계”와 같은 기기에 날씨 관련 데이터를 기록하기 시작했습니다. 데이터는 일정한 간격으로 수집되어 서로 다른 위치에 보관되었습니다.

    시간이 흐르면서 결국 일기 예보가 신문에 실리기 시작했습니다. 오늘날의 시대로 접어들면서 유비쿼터스 일기 예보 스테이션은 정확한 날씨 변수를 수집하기 위해 전 세계 여러 지역에 설치됩니다.

    이러한 스테이션에는 다양한 위치에서 날씨 데이터를 수집하고 연관시키기 위해 상호 연결된 고급 기능 장치가 있습니다. 상관 데이터는 요구 사항에 따라 인스턴스마다 기상 조건을 예측하는 데 사용됩니다.

    #5. 비즈니스 개발의 시계열

    시계열 데이터를 통해 기업은 비즈니스 의사 결정을 내릴 수 있습니다. 이는 프로세스가 과거 데이터를 분석하여 미래 이벤트를 도출하고 가능한 가능성을 밝힐 때 달성됩니다. 과거 데이터 패턴은 다음 매개변수를 도출하는 데 사용됩니다.

    • 비즈니스 성장: 전반적인 재무 및 비즈니스 성과를 평가하고 성장을 측정하려면 시계열 데이터가 가장 적합하고 신뢰할 수 있는 자산입니다.
    • 추세 추정: 새로운 추세를 추정하기 위해 다양한 시계열 방법을 사용할 수 있습니다. 예를 들어, 특정 전자 장치의 판매 증가 또는 감소를 반영하기 위해 일정 기간 동안 데이터 관찰을 분석하는 이러한 방법을 고려하십시오.
    • 계절 패턴 공개: 기록된 데이터 포인트는 데이터 예측에 도움이 될 수 있는 변동 및 계절 패턴을 나타낼 수 있습니다. 획득한 데이터 정보는 제품 가격이 계절에 따라 변동하는 시장에서 중요한 역할을 합니다. 이러한 데이터는 기업이 더 나은 제품 계획 및 개발에 도움이 될 수 있습니다.

    결론 👨‍🏫

    요약하면 시계열 데이터는 일정 기간 동안 수집된 복잡한 데이터 포인트의 특성이라고 볼 수 있습니다. 시계열 분석, 모델링 및 예측은 IoT 장치, 스마트 가전 및 휴대용 장치의 출현으로 일상 생활의 필수적인 부분이 되었습니다. 게다가 시계열 데이터는 의료, 천체 물리학, 경제, 엔지니어링, 비즈니스 등 다양한 분야에서 응용 프로그램을 찾고 있습니다.