在 AWS Fargate 上部署 PyCaret 和 Streamlit | 文档

文档

使用 AWS Fargate 部署 PyCaret 和 Streamlit 应用 — 无服务器基础设施

作者 Moez Ali

回顾

在本教程中，我们将使用之前构建的相同 Web 应用和机器学习 Pipeline，并演示如何使用 AWS Fargate（一种用于容器的无服务器计算服务）进行部署。

在本教程结束时，你将能够无需预置任何服务器基础设施，即可在 AWS 上构建和托管一个功能齐全的容器化 Web 应用。

👉 本教程的学习目标

什么是容器？什么是 Docker？什么是 Kubernetes？
什么是 Amazon Elastic Container Service (ECS)、AWS Fargate 和无服务器部署？
构建 Docker 镜像并将其推送到 Amazon Elastic Container Registry。
使用无服务器基础设施，即 AWS Fargate，部署 Web 应用。

本教程将涵盖从本地构建 Docker 镜像、将其上传到 Amazon Elastic Container Registry、创建集群，然后使用 AWS 管理的基础设施定义和执行任务的整个工作流程。

过去，我们已经介绍过在其他云平台（如 Azure 和 Google）上的部署。如果你有兴趣了解更多，可以阅读以下教程

💻 本教程的工具箱

PyCaret

pip install pycaret

Streamlit

pip install streamlit

适用于 Windows 10 Home 的 Docker Toolbox

Amazon Web Services (AWS)

✔️让我们开始吧……

什么是容器？

在我们深入了解使用 AWS Fargate 进行实施之前，先来了解一下什么是容器以及为什么需要容器？

你是否遇到过这样的问题：你的代码在你的电脑上运行良好，但你的朋友尝试运行完全相同的代码时，却无法工作？如果你的朋友重复完全相同的步骤，他们应该得到相同的结果，对吧？这个问题的简单答案是**环境**。你朋友的环境与你的不同。

环境包括什么？→ 编程语言（如 Python）以及所有用于构建和测试应用程序的库和依赖项及其精确版本。

如果我们能创建一个可以转移到其他机器（例如：你朋友的电脑或像 Google Cloud Platform 这样的云服务提供商）的环境，我们就可以在任何地方重现结果。因此，***容器***是一种软件，它将应用程序及其所有依赖项打包在一起，以便应用程序在不同的计算环境之间可靠地运行。

什么是 Docker？

现在你已经理论上理解了什么是容器以及如何使用 Docker 将应用程序容器化，让我们设想一个场景：你需要在一组机器上运行多个容器，以支持一个企业级的机器学习应用程序，而该应用程序在白天和晚上的工作负载各不相同。这在现实生活中很常见，听起来很简单，但手动操作起来却有很多工作。

你需要及时启动正确的容器，弄清楚它们如何相互通信，处理存储问题，应对失败的容器或硬件，以及无数其他事情！

管理成千上万个容器以保持应用程序正常运行的整个过程称为容器编排。暂时不要纠结于技术细节。

此时，你必须认识到管理现实生活中的应用程序需要不止一个容器，并且管理所有基础设施以保持容器运行是繁琐、手动且管理负担重的。

这就引出了Kubernetes。

什么是 Kubernetes？

Kubernetes 是由 Google 在 2014 年开发的一个开源系统，用于管理容器化应用程序。简单来说，Kubernetes 是一个在机器集群上运行和协调容器化应用程序的系统。

虽然 Kubernetes 是由 Google 开发的开源系统，但几乎所有主要的云服务提供商都提供托管式 Kubernetes 服务。例如：Amazon 提供的 **Amazon Elastic Kubernetes Service (EKS)**，Google 提供的 **Google Kubernetes Engine (GKE)**，以及 Microsoft 提供的 **Azure Kubernetes Service (AKS)**。

到目前为止，我们已经讨论并理解了

✔️ 容器

✔️ Docker

✔️ Kubernetes

在介绍 AWS Fargate 之前，只剩下最后一件事要讨论，那就是亚马逊自己的容器编排服务Amazon Elastic Container Service (ECS)。

AWS Elastic Container Service (ECS)

Amazon Elastic Container Service (Amazon ECS) 是亚马逊自研的容器编排平台。ECS 的理念与 Kubernetes 相似（两者都是编排服务）。

ECS 是一种 AWS 原生服务，这意味着它只能在 AWS 基础设施上使用。另一方面，EKS 基于 Kubernetes，这是一个开源项目，可供在多云（AWS、GCP、Azure）甚至本地环境中运行的用户使用。

亚马逊还提供基于 Kubernetes 的容器编排服务，称为 **Amazon Elastic Kubernetes Service (Amazon EKS)。** 尽管 ECS 和 EKS 的目的非常相似，即编排容器化应用程序，但在定价、兼容性和安全性方面存在一些差异。没有最佳答案，解决方案的选择取决于用例。

无论您使用哪种容器编排服务（ECS 或 EKS），您都可以通过两种方式实施底层基础设施

手动管理集群和底层基础设施，如虚拟机/服务器（也称为 EC2 实例）。
无服务器 — 完全无需管理任何内容。只需上传容器即可。← 这就是 AWS Fargate。

AWS Fargate — 容器的无服务器计算

AWS Fargate 是一种用于容器的无服务器计算引擎，可与 Amazon Elastic Container Service (ECS) 和 Amazon Elastic Kubernetes Service (EKS) 配合使用。Fargate 让您可以轻松专注于构建应用程序。Fargate 消除了预置和管理服务器的需求，让您可以按应用程序指定和支付资源，并通过设计实现应用程序隔离来提高安全性。

Fargate 分配适量的计算资源，无需选择实例和扩展集群容量。您只需为运行容器所需的资源付费，因此不会出现过度预置和支付额外服务器费用的情况。

关于哪种方法更好，没有最佳答案。无服务器方法与手动管理 EC2 集群方法之间的选择取决于用例。一些有助于做出此选择的建议包括

ECS EC2（手动方法）

您完全依赖 AWS。
您有一个专门的运维团队来管理 AWS 资源。
您已经在 AWS 上有现有的基础架构，即您已经在管理 EC2 实例

AWS Fargate

您没有庞大的运维团队来管理 AWS 资源。
您不想承担运维责任或希望减少运维责任。
您的应用程序是无状态的（无状态应用程序是指不保存客户端在一个会话中生成的数据以供下一次与该客户端会话使用的应用程序）。

设定业务背景

一家保险公司希望通过更好地预测患者住院时的费用，利用人口统计学和基本患者健康风险指标，来改善其现金流预测。

目标

构建并部署一个 Web 应用程序，在该应用程序中，通过基于 Web 的表单输入患者的人口统计学和健康信息，然后输出预测的费用金额。

任务

使用 PyCaret 训练、验证和开发机器学习 Pipeline。
构建一个具有两个功能的前端 Web 应用程序：(i) 在线预测和 (ii) 批量预测。
创建一个 Dockerfile
创建并执行一个任务，使用 AWS Fargate 无服务器基础设施部署应用程序。

👉 任务 1 — 模型训练和验证

我们使用 Python 中的 PyCaret 进行训练和开发机器学习 Pipeline，该 Pipeline 将作为我们 Web 应用的一部分使用。机器学习 Pipeline 可以在集成开发环境 (IDE) 或 Notebook 中开发。我们使用 Notebook 运行以下代码

在 PyCaret 中保存模型时，会创建基于 **setup()** 函数中定义的配置的整个转换 Pipeline。所有相互依赖关系都会自动协调。查看存储在“deployment_28042020”变量中的 Pipeline 和模型

👉 任务 2 — 构建前端 Web 应用

现在我们的机器学习 Pipeline 和模型已准备就绪，可以开始构建一个可以对新数据点生成预测的前端 Web 应用程序。该应用程序将通过 csv 文件上传支持“在线”和“批量”预测。我们将应用程序代码分解为三个主要部分

页眉 / 布局

此部分导入库，加载训练好的模型，并在顶部创建一个带有徽标、一张 jpg 图片和侧边栏上的下拉菜单的基本布局，用于在“在线”和“批量”预测之间切换。

在线预测

此部分处理应用程序的初始功能，即逐个的在线预测。我们使用 streamlit 控件，如数字输入、文本输入、下拉菜单和复选框，来收集用于训练模型的数据点，例如年龄、性别、BMI、子女人数、吸烟者、地区。

批量预测

批量预测是应用程序功能的第二层。使用 streamlit 中的 file_uploader 控件上传一个 csv 文件，然后调用 PyCaret 的原生 predict_model() 函数来生成预测，这些预测通过 streamlit 的 write() 函数显示。

**测试应用**在将应用程序部署到 AWS Fargate 之前，最后一个步骤是本地测试应用。打开 Anaconda Prompt 并导航到你的项目文件夹，然后执行以下代码

streamlit run app.py

👉 任务 3 — 创建 Dockerfile

为了将我们的应用程序容器化以进行部署，我们需要一个 Docker 镜像，该镜像在运行时会成为一个容器。Docker 镜像是使用 Dockerfile 创建的。Dockerfile 只是一个包含一组指令的文件。此项目的 Dockerfile 如下所示

此 Dockerfile 的最后一部分（从第 23 行开始）是 Streamlit 特有的。Dockerfile 是区分大小写的，并且必须与项目文件一起放在项目文件夹中。

👉 任务 4 – 在 AWS Fargate 上部署

按照这 9 个简单步骤将应用部署到 AWS Fargate

👉 步骤 1 — 安装 Docker Toolbox（适用于 Windows 10 Home）

下载并运行DockerToolbox-19.03.1.exe文件。

检查安装是否成功的简单方法是打开命令提示符并输入“docker”。它应该打印帮助菜单。

👉 步骤 2 — 在 Elastic Container Registry (ECR) 中创建存储库

(a) 登录到您的 AWS 控制台并搜索 Elastic Container Registry

(b) 创建新的存储库

点击“创建存储库”。

(c) 点击“查看推送命令”

👉 步骤 3— 执行推送命令

使用 Anaconda Prompt 导航到您的项目文件夹，并执行您在上面步骤中复制的命令。在执行这些命令之前，您必须位于 Dockerfile 和其他项目文件所在的文件夹中。

这些命令用于构建 docker 镜像并将其上传到 AWS ECR。

👉 步骤 4 — 检查您上传的镜像

点击您创建的存储库，您将看到上面步骤中上传的镜像的镜像 URI。复制镜像 URI（在下面的步骤 6 中需要）。

👉 步骤 5 — 创建和配置集群

(a) 点击左侧菜单中的“集群”

(b) 选择“仅网络”并点击下一步

(c) 配置集群（输入集群名称）并点击创建

点击“创建”。

(d) 集群已创建

👉 步骤 6 — 创建新的任务定义

在 Amazon ECS 中运行 Docker 容器需要一个任务定义。您可以在任务定义中指定的某些参数包括：每个容器在任务中使用的 Docker 镜像。每个任务或任务中每个容器使用的 CPU 和内存量。

(a) 点击“创建新的任务定义”

(b) 选择“FARGATE”作为启动类型

(c) 填写详细信息

(d) 点击“添加容器”并填写详细信息

点击右下角的“创建任务”。

👉 步骤 7— 执行任务定义

在最后一步中，我们创建了一个任务来启动容器。现在，我们将通过点击“操作”下的“运行任务”来执行任务。

(a) 点击“切换到启动类型”，将类型更改为 Fargate

(b) 从下拉菜单中选择 VPC 和子网

点击右下角的“运行任务”。

👉 步骤 8— 从网络设置中允许入站端口 8501

在我们可以在公共 IP 地址上看到应用程序运行之前，最后一步是通过创建新规则来允许端口 8501（由 streamlit 使用）。为此，请按照以下步骤操作

(a) 点击任务

(b) 点击 ENI ID

(c) 点击安全组

(d) 向下滚动并点击“编辑入站规则”

(e) 添加端口 8501 的自定义 TCP 规则

👉 恭喜你！你已将应用以无服务器方式发布到 AWS Fargate。使用公共 IP 地址和端口 8501 访问应用程序。

注意： 在本文发表时，为限制资源消耗，应用程序将从公共地址移除。

PyCaret 2.0.0 即将推出！

想了解某个特定模块吗？

截至第一个发布版本 1.0.0，PyCaret 提供了以下可用的模块。点击下面的链接查看 Python 中的文档和工作示例。

另请参阅

PyCaret 入门教程（在 Notebook 中）