Kubernetes 上的分布式 XGBoost

通过 Kubeflow XGBoost 训练操作器，支持在 Kubernetes 上进行分布式 XGBoost 训练和批量预测。

说明

要在 Kubernetes 集群中运行 XGBoost 作业，请执行以下步骤：

在 Kubernetes 集群上安装 XGBoost 操作器。
1. XGBoost 操作器旨在管理 XGBoost 作业的调度和监控。请按照此安装指南安装 XGBoost 操作器。
编写将由 XGBoost 操作器执行的应用程序代码。
1. 要使用 XGBoost 操作器，您需要编写几个 Python 脚本来实现 XGBoost 的分布式训练逻辑。请参阅 Iris 分类示例。
2. 数据读写器：您需要根据所选数据源的特定要求实现数据读写器。例如，如果您的数据集存储在 Hive 表中，您必须根据工作器索引编写从 Hive 表读取或写入 Hive 表的代码。
3. 模型持久化：在 Iris 分类示例中，模型存储在阿里云 OSS 中。如果您想将模型存储在其他存储（例如 Amazon S3 或 Google NFS）中，您需要根据所选存储系统的要求实现模型持久化逻辑。
使用 YAML 文件配置 XGBoost 作业。
1. YAML 文件用于配置 XGBoost 作业运行所需的计算资源和环境，例如工作器/主节点的数量以及 CPU/GPU 的数量。请参阅此 YAML 模板以获取示例。
将 XGBoost 作业提交到 Kubernetes 集群。
1. 如此处所示，使用 kubectl 提交分布式 XGBoost 作业。

有关任何功能请求或问题，请在 XGBoost 操作器仓库上提交问题。