Kubernetes 上的分布式 XGBoost

通过 Kubeflow XGBoost 训练操作器,支持在 Kubernetes 上进行分布式 XGBoost 训练和批量预测。

说明

要在 Kubernetes 集群中运行 XGBoost 作业,请执行以下步骤:

  1. 在 Kubernetes 集群上安装 XGBoost 操作器。

    1. XGBoost 操作器旨在管理 XGBoost 作业的调度和监控。请按照此安装指南安装 XGBoost 操作器。

  2. 编写将由 XGBoost 操作器执行的应用程序代码。

    1. 要使用 XGBoost 操作器,您需要编写几个 Python 脚本来实现 XGBoost 的分布式训练逻辑。请参阅 Iris 分类示例

    2. 数据读写器:您需要根据所选数据源的特定要求实现数据读写器。例如,如果您的数据集存储在 Hive 表中,您必须根据工作器索引编写从 Hive 表读取或写入 Hive 表的代码。

    3. 模型持久化:在 Iris 分类示例中,模型存储在 阿里云 OSS 中。如果您想将模型存储在其他存储(例如 Amazon S3 或 Google NFS)中,您需要根据所选存储系统的要求实现模型持久化逻辑。

  3. 使用 YAML 文件配置 XGBoost 作业。

    1. YAML 文件用于配置 XGBoost 作业运行所需的计算资源和环境,例如工作器/主节点的数量以及 CPU/GPU 的数量。请参阅此 YAML 模板以获取示例。

  4. 将 XGBoost 作业提交到 Kubernetes 集群。

    1. 此处所示,使用 kubectl 提交分布式 XGBoost 作业。

支持

有关任何功能请求或问题,请在 XGBoost 操作器仓库上提交问题。