GitHub：您所需的最佳 AutoML

作者 Moez Ali

您可能想知道 GitHub 是从何时开始涉足自动化机器学习业务的。嗯，它并没有，但你可以用它来测试你个性化的 AutoML 软件。在本教程中，我们将向您展示如何构建自己的自动化机器学习软件并将其容器化，然后使用 Docker 容器在 GitHub 上进行测试。

👉 本教程的学习目标

了解什么是自动化机器学习以及如何使用 PyCaret 2.0 构建简单的 AutoML 软件。
了解什么是容器以及如何将你的 AutoML 解决方案部署为 Docker 容器。
什么是 GitHub Actions 以及如何使用它们来测试你的 AutoML。

什么是自动化机器学习？

自动化机器学习（AutoML）是自动化机器学习中耗时、迭代任务的过程。它使数据科学家和分析师能够高效地构建机器学习模型，同时保持模型质量。任何 AutoML 软件的最终目标是根据某些性能标准确定最佳模型。

传统的机器学习模型开发过程资源密集，需要大量的领域知识和时间来生成和比较数十个模型。通过自动化机器学习，您可以非常轻松高效地加快开发生产就绪型 ML 模型所需的时间。

市面上有许多 AutoML 软件，包括付费的和开源的。几乎所有这些软件都使用相同的转换和基础算法集合。因此，在此类软件下训练的模型质量和性能大致相同。

付费的 AutoML 即服务软件非常昂贵，如果你的手头没有大量用例，则在财务上不可行。托管的机器学习即服务平台相对便宜一些，但它们通常难以使用，并且需要了解特定平台。

在众多其他开源 AutoML 库中，PyCaret 是一个相对较新的库，它采用独特的低代码机器学习方法。PyCaret 的设计和功能简单、人性化且直观。在短时间内，PyCaret 被全球超过 100,000 名数据科学家采用，我们是一个不断壮大的开发者社区。

PyCaret 如何工作？

PyCaret 是一个用于监督和无监督机器学习的工作流自动化工具。它被组织成六个模块，每个模块都有一组可用的函数来执行特定操作。每个函数接受输入并返回输出，在大多数情况下，输出是经过训练的机器学习模型。截至第二个版本，可用的模块有

PyCaret 中的所有模块都支持数据准备（超过 25 种基本预处理技术，包含大量未经训练的模型并支持自定义模型）、自动超参数调优、模型分析和可解释性、自动模型选择、实验日志记录以及便捷的云部署选项。

👉 开始之前

在开始构建 AutoML 软件之前，让我们了解以下术语。此时，你只需要对本教程中使用的这些工具/术语有一些基本的理论知识。如果你想了解更多细节，本教程末尾提供了链接供你稍后探索。

容器

容器提供了一个可移植且一致的环境，可以在不同环境中快速部署，以最大限度地提高机器学习应用程序的准确性、性能和效率。环境包含运行时语言（例如 Python）、所有库以及应用程序的依赖项。

Docker

GitHub

GitHub Actions

GitHub Actions 帮助你在存储代码并协作处理拉取请求和问题的同一位置自动化软件开发工作流。你可以编写称为“action”的单个任务，并将它们组合起来创建自定义工作流。工作流是你可以在仓库中设置的自定义自动化流程，用于在 GitHub 上构建、测试、打包、发布或部署任何代码项目。

👉 让我们开始

目标

训练并选择基于数据集中其他变量（即年龄、性别、BMI、子女数量、吸烟状况和地区）预测患者费用的最佳回归模型。

👉 步骤 1 — 开发 app.py

这是 AutoML 的主要文件，也是 Dockerfile 的入口点（见下文步骤 2）。如果你之前使用过 PyCaret，那么这段代码对你来说应该是不言自明的。

前五行是关于从环境中导入库和变量。接下来的三行是将数据读取为 pandas 数据帧。第 12 行到第 15 行是根据环境变量导入相关模块，从第 17 行开始是关于 PyCaret 初始化环境、比较基础模型以及将表现最佳的模型保存到你的设备上的函数。最后一行将实验日志下载为 csv 文件。

👉 步骤 2 — 创建 Dockerfile

Dockerfile 只是一个包含几行指令的文件，保存在你的项目文件夹中，名称为“Dockerfile”（区分大小写，无扩展名）。

另一种理解 Dockerfile 的方式是，它就像你在自己的厨房里发明的食谱。当你与他人分享这样的食谱时，如果他们完全按照食谱中的说明操作，他们就能做出同样质量的菜肴。同样，你可以与他人分享你的 Dockerfile，他们就可以基于该 Dockerfile 创建镜像并运行容器。

这个项目的 Dockerfile 很简单，只有 6 行。见下文

Dockerfile 的第一行导入 python:3.7-slim 镜像。接下来的四行创建一个 app 文件夹，更新 **libgomp1 **库，并安装 **requirements.txt **文件中的所有依赖项，在此示例中只需要 PyCaret。最后，最后两行定义了应用程序的入口点；这意味着当容器启动时，它将执行我们在上面步骤 1 中看到的 app.py 文件。