데이터 분석/이상탐지(5)
-
시계열 이상탐지 (4) - 딥러닝의 시대
이하 내용은 MIT - Data to AI Lab에서 작성한 글을 일부 번역 및 요약한 것입니다. Part 1 Time series anomaly detection — in the era of deep learning 시계열 이상 탐지란 시계열 데이터: 시간을 인덱스로 가지는 점들의 집합 이상치(anomaly): 가끔 등장하는 시계열 내에 속하지 않는 데이터(정상 패턴과 다른 패턴) 이상치의 종류 - 점 이상치(Point anomalies): 낮은 밀도 영역에 속하는 단일 값. 많이 모여있으면 집합 이상치(collective anomalies)라고 불림 - 맥락적 이상치(Contextual anomalies): 낮은 밀도 영역에 속하지는 않지만 지역적으로 이상한 값들로, 시작 시간과 끝 시간으로 이루어진..
2024.03.25 -
시계열 이상탐지 (3) - VAE, TadGAN
VAE VAE(Variation AutoEncoder): 오코인코더의 변형으로 잠재 벡터가 아닌 평균과 분산을 이용한 잠재 공간(Latent Space)으로 압축하는 모델로 생성 모델로 많이 사용됨 - Reconstruction-Based - LSTM-AE와 동일한 방식으로 임계치 선정 및 모델 평가 TadGAN TadGAN: Time Series Anomaly Detection Using Generative Adversarial Networks TadGAN(Time Series Anomaly Detection Using Generative Adversarial Networks): GAN을 시계열 이상탐지에 응용한 모델. - $E$: 인코더. 생성자에 들어가기 전 랜덤 벡터(z)와 구분할 수 없도록 학습..
2024.03.22 -
시계열 이상탐지 (2) - LSTM-DT, LSTM-AE, AER
LSTM-DT Detecting Spacecraft Anomalies Using LSTMs and Nonparametric Dynamic Thresholding LSTM-DT(Long Short-Term Memory with Dynamic Thresholding): LSTM 모델을 학습하여 값들을 예측하고, 실제값과 예측값의 차이를 가지고 이상치를 판단하는 모델. 이상치를 판단하는 임계값(threshold)은 동적으로 정해지는 것이 특징. - Prediction-Based - 입력 데이터의 평균과 분산을 계산하여 임계값을 조절함 - $e_s$: smoothed errors로 EWMA(지수가중이동평균)으로 계산 - 임계값 ε, z는 2~10 사이의 정수 - 임계값을 넘어가면 이상치 LSTM-AE Unsup..
2024.03.20 -
시계열 이상탐지 (1) 배경 지식
RNN RNN(Recurrent Neural Network): 시계열 데이터와 같은 순차적인 입력 데이터를 처리하기 위해 고안된 신경망 모델로, 이전 시점의 출력값을 현재 시점의 입력값으로 사용하여 연속적인 정보를 처리할 수 있는 모델 LSTM LSTM(Long Short-Term Memory): 기존의 순환 신경망(RNN)에 기억 셀(memory cell)과 게이트(gate)를 추가하여 시계열 데이터를 더 잘 처리할 수 있는 모델 AutoEncoder AutoEncoder: Encoder로 데이터를 잠재 벡터(latent vector)로 압축하고 Decoder로 복원하는 모델로 데이터의 노이즈 제거, 차원 축소 등에 사용 GAN GAN(Generative Adversarial Networks): 생성적..
2024.03.15 -
이상탐지 알고리즘 - ECOD 논문 읽기
1. INTRODUCTION - 2201.00382.pdf (arxiv.org) - OD = Outlier Detection - 기존 OD의 문제점 - 차원의 저주 때문에 정확도와 탐색 시간이 나쁜 영향을 받는다. - 비지도학습의 하이퍼 파라미터 튜닝의 어려움 - ECOD = Empirical Cumulative distribution functins for Outlier Detection = 이상치 탐색을 위한 경험적 누적 분포 함수 - 희귀한 이벤트(rare events)를 잡아내는 것이 목적 - 가우시안 분포의 꼬리(tail)를 생각할 수 있음 (기존 - "three-sigma" 또는 "1.5 IQR") - ECDF = Empirical Cumulative Distribution Function -..
2024.02.20