用户指南¶

欢迎使用 gpuctl！本指南将帮助你从零开始掌握 gpuctl 的核心功能，高效管理 GPU 算力资源。

本章内容¶

快速开始

5 分钟内完成安装配置并提交你的第一个任务。

快速开始
训练任务

支持 LlamaFactory、DeepSpeed 分布式训练，单机多卡 & 多机多卡场景完整示例。

训练任务
推理服务

基于 VLLM 等框架部署推理服务，支持多副本 + 自动扩缩容。

推理服务
Notebook

一键启动 JupyterLab 环境，挂载 GPU 资源，快速原型验证。

Notebook 开发
计算任务

部署 nginx、redis 等 CPU 服务，无需关注 K8s Deployment 细节。

计算任务
资源池管理

将节点划分为资源池，实现训练/推理资源隔离与精细化调度。

资源池管理
配额与命名空间

为每个团队/用户设置 CPU、内存、GPU 配额，防止资源滥用。

配额与命名空间

YAML 配置总览¶

所有资源都通过声明式 YAML 定义。以下是各字段的通用说明：

kind: training          # 任务类型：training / inference / notebook / compute / pool / quota
version: v0.1           # 版本号，当前固定为 v0.1

job:
  name: my-job          # 任务名称（同时作为 K8s 资源名）
  priority: medium      # 优先级：high / medium / low
  description: "描述"   # 可选描述

environment:
  image: my-image:tag   # 容器镜像地址
  imagePullSecret: xxx  # 镜像拉取 Secret（可选）
  command: [...]        # 启动命令
  args: [...]           # 命令参数（可选）
  env:                  # 环境变量（可选）
    - name: KEY
      value: VALUE

resources:
  pool: default         # 资源池名称（默认 default）
  gpu: 0                # GPU 数量（0 表示纯 CPU 任务）
  gpu-type: A100-100G   # GPU 型号（可选，不填由 K8s 调度）
  cpu: 4                # CPU 核数
  memory: 8Gi           # 内存大小

service:                # 仅 inference / notebook / compute 有效
  replicas: 1           # 副本数
  port: 8080            # 服务端口
  healthCheck: /health  # 健康检查路径（可选）

storage:
  workdirs:             # 宿主机目录挂载列表
    - path: /data/models
    - path: /output

命名规则

job.name 字段直接作为 K8s 资源的 metadata.name，命名需符合 K8s 命名规范：只含小写字母、数字和连字符，长度不超过 63 个字符。