본문 바로가기

Computer Science

[AI/ML] 자동 데이터 이상탐지(anomaly detection)에 관한 고찰

반응형

기존에 이상탐지는 주로 확률 기반의 이상탐지나

비지도학습인 RCF(Random Cut Forest)를 활용한 방법이 많이 사용된다.

AWS나 opensearch에서 RCF를 지원한다.

 

이건 Amazon SageMaker(아마존의 ML 플랫폼)에서 RCF를 활용한 유플러스의 개발 브런치글

https://medium.com/uplusdevu/amazon-sagemaker%EC%9D%98-rcf-random-cut-forest-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98%EC%9D%84-%ED%99%9C%EC%9A%A9%ED%95%9C-%EC%9D%B4%EC%83%81-%EA%B0%90%EC%A7%80-%EC%8B%9C%EC%8A%A4%ED%85%9C-%EB%A7%8C%EB%93%A4%EA%B8%B0-419123061bfd

 

Amazon Sagemaker의 RCF(Random Cut Forest) 알고리즘을 활용한 이상 감지 시스템 만들기

정상 / 비정상 라벨링이 없는 데이터에 대해, 기존 Rule 기반의 탐지방식에 AWS 서버리스 자원을 활용한 RCF 알고리즘을 추가적용하여 이상치를 자동으로 탐지하고 추천하는 시스템을 구축했습니

medium.com

 

그리고 아래는 데이터가 prior assumtion이 필요 없이도 이상탐지를 하는 알고리즘에 관한 논문이다. 

기존에는 모델러가 데이터에 대한 이해를 가지고 만드는 것이 일반적이었고

나 또한 그런 서비스 경험에 기반한 데이터 이해도를 가지고 이상탐지 시스템을 만들었다.

하지만 데이터의 특성을 파악하기 위해 분석하는 시간 또한 많은 리소스가 소모된다.

해당 데이터가 어떤분포를 보이는지(가우시안 분포를 따르는지 아닌지 등)을 확인하는 과정

그런데 데이터의 특성을 모르는 상태에서도 이상탐지가 가능하다면 리소스를 크게 효율화 할 수 있지 않을까

추후에 회사에서 새로운 서비스(데이터)에 대한 이상탐지를 구현할 기회가 있다면 자율 이상탐지를 한 번 시도해 봐야겠다.

https://www.semanticscholar.org/paper/Autonomous-Anomaly-Detection-for-Streaming-Data-Basheer-Ali/51c3018736a5353567b811b3a720cc043ba8a368

 

https://www.semanticscholar.org/paper/Autonomous-Anomaly-Detection-for-Streaming-Data-Basheer-Ali/51c3018736a5353567b811b3a720cc043ba8a368

 

www.semanticscholar.org

 

반응형