使用 PyCaret 进行时间序列异常检测

文档

一篇关于使用 PyCaret 进行时间序列数据无监督异常检测的逐步教程

👉 引言

这是一篇逐步的、对初学者友好的教程，介绍如何使用 PyCaret 的无监督异常检测模块检测时间序列数据中的异常。

本教程的学习目标

什么是异常检测？异常检测的类型。
异常检测在业务中的用例。
使用 PyCaret 训练和评估异常检测模型。
标记异常并分析结果。

👉 PyCaret

PyCaret 是一个开源、低代码的机器学习库，也是一个端到端的模型管理工具，用 Python 构建，用于自动化机器学习工作流。它因其易用性、简洁性以及快速高效地构建和部署端到端 ML 原型的能力而广受欢迎。

PyCaret 是一个替代性的低代码库，只需几行代码即可替代数百行代码。这使得实验周期呈指数级加快且更高效。

PyCaret 简单易用。在 PyCaret 中执行的所有操作都按顺序存储在 Pipeline 中，该管线完全自动化，可用于**部署**。无论是填充缺失值、独热编码、转换分类数据、特征工程，甚至是超参数调优，PyCaret 都能自动化完成。

👉 安装 PyCaret

安装 PyCaret 非常简单，只需几分钟。我们强烈建议使用虚拟环境，以避免与其他库潜在的冲突。

**# install slim version (default)
**pip install pycaret

**# install the full version**
pip install pycaret[full]

👉 什么是异常检测

异常检测是一种用于识别稀有项目、事件或观察的技术，这些项目、事件或观察通过与数据主体显著不同而引起怀疑。

通常，异常项会转化为某种类型的问题，例如

银行欺诈，
结构缺陷，
医疗问题，
错误等。

异常检测算法大致可分为以下几类

**(a) 监督式：**当数据集具有标识哪些事务是异常、哪些是正常的标签时使用。（这类似于监督式分类问题）。

**(b) 无监督式：**无监督意味着没有标签，模型在完整数据上训练，并假定大多数实例是正常的。

(c) 半监督式：模型仅在正常数据上训练（不包含任何异常）。当训练好的模型用于新的数据点时，它可以预测新的数据点是否正常（基于训练模型中数据的分布）。

👉 PyCaret 异常检测模块

👉 数据集

import pandas as pd
data = pd.read_csv('[https://raw.githubusercontent.com/numenta/NAB/master/data/realKnownCause/nyc_taxi.csv](https://raw.githubusercontent.com/numenta/NAB/master/data/realKnownCause/nyc_taxi.csv)')

data['timestamp'] = pd.to_datetime(data['timestamp'])

data.head()

**# create moving-averages
**data['MA48'] = data['value'].rolling(48).mean()
data['MA336'] = data['value'].rolling(336).mean()

# plot 
import plotly.express as px
fig = px.line(data, x="timestamp", y=['value', 'MA48', 'MA336'], title='NYC Taxi Trips', template = 'plotly_dark')
fig.show()

👉 数据准备

由于算法无法直接处理日期或时间戳数据，我们将在训练模型之前从时间戳中提取特征，并丢弃实际的时间戳列。

**# drop moving-average columns
**data.drop(['MA48', 'MA336'], axis=1, inplace=True)

**# set timestamp to index**
data.set_index('timestamp', drop=True, inplace=True)

**# resample timeseries to hourly **
data = data.resample('H').sum()

**# creature features from date**
data['day'] = [i.day for i in data.index]
data['day_name'] = [i.day_name() for i in data.index]
data['day_of_year'] = [i.dayofyear for i in data.index]
data['week_of_year'] = [i.weekofyear for i in data.index]
data['hour'] = [i.hour for i in data.index]
data['is_weekday'] = [i.isoweekday() for i in data.index]

data.head()

👉 实验设置

**# init setup**
from pycaret.anomaly import *
s = setup(data, session_id = 123)

无论何时在 PyCaret 中初始化 setup 函数，它都会对数据集进行分析并推断所有输入特征的数据类型。在这种情况下，你可以看到 day_name 和 is_weekday 被推断为分类类型，其余被推断为数值类型。你可以按 Enter 键继续。

👉 模型训练

要查看所有可用算法的列表

**# check list of available models**
models()

**# train model
**iforest = create_model('iforest', fraction = 0.1)
iforest_results = assign_model(iforest)
iforest_results.head()

注意，附加了两个新列，即 Anomaly，其中离群点值为 1，正常点值为 0；以及 Anomaly_Score，这是一个连续值，也称为决策函数（在内部，算法根据此分数确定异常）。

**# check anomalies
**iforest_results[iforest_results['Anomaly'] == 1].head()

我们现在可以在图表上绘制异常点进行可视化。

import plotly.graph_objects as go

**# plot value on y-axis and date on x-axis**
fig = px.line(iforest_results, x=iforest_results.index, y="value", title='NYC TAXI TRIPS - UNSUPERVISED ANOMALY DETECTION', template = 'plotly_dark')

**# create list of outlier_dates**
outlier_dates = iforest_results[iforest_results['Anomaly'] == 1].index

**# obtain y value of anomalies to plot**
y_values = [iforest_results.loc[i]['value'] for i in outlier_dates]

fig.add_trace(go.Scatter(x=outlier_dates, y=y_values, mode = 'markers', 
                name = 'Anomaly', 
                marker=dict(color='red',size=10)))
        
fig.show()