NOTE

假期日记 —— 2025 春节

目录 前言 2025-01-28 2025-01-29 2025-01-30 2025-01-31 2025-02-01 2025-02-02/2025-02-03 2025-02-04 总结 前言 似乎每个春节过的都不太顺心,去年春节前刚搬了家,我爸也刚来上海,一切都是乱糟糟的,尤其是小孩才 7-8 个月,生活还是围着小孩转,当时过年晚上老婆随便吃...

karpenter 中调度与 consolidate 实现

目录 什么时候触发 node 弹出 调度大概过程 节点 consolidate 关键因素:consolidatable condition empty 节点 consolidate 单节点重调度 单例控制器 初始化控制器 singleton source 实现 ...

karpenter 集群扩缩容: 基本概念

目录 karpenter 概述 概念 NodeClass NodePool NodeClaim 调度 consolidate 安装部署 karpenter 概述 karpenter 是一个公有云环境下 K8s 集群扩缩容的项目,主要功能为:在有 pod pending 的时候触发集群节点扩...

在阿里云环境下使用 gpu 机器

目录 1. 概述 2. 使用及使用约束 2.1 安装 ai 套件 2.2 创建节点池 2.3 业务 pod 声明 gpu 资源 3. gpu 调度 3.1 显存与算力调度 3.2 NUMA 拓扑调度 4. 监控 4.1 阿里云监控方案 ...

以容器化方式运行 pytorch 程序

目录 概述 1. pytorch 程序代码 2. Dockerfile 配置 3. 机器配置 3.1 安装 gpu/cuda 驱动 3.2 nvidia-container-toolkit 3.3 部署 gpu device-plugin 4. 通过 job 运行程序 总结 备注 ...

使用 cgroupv2 限制进程资源使用

目录 概述 cpu 限制 memory 限制 io 限制 概述 从 K8s 1.25 开始 cgroupv2 特性变成 stable 状态,很多生产环境也都开始在使用 cgroupv2 了。本文初步研究下 cgroupv2 中的一些概念模型,并通过一些例子来学习下 cgroupv2 的一些特性。 cpu 限制 与 cgroupv1 类似,cgroupv2 支持绑定 c...

docker harbor 管理 helm chart 生命周期

目录 harbor 概述 helm 命令行使用 传统 helm chart 仓库格式 oci 格式 打包上传 chart 在 pulumi 中安装 chart 传统 helm chart 格式 oci 格式的镜像仓库 使用 helm sdk 安装 chart har...

通过 github action 自动打包项目 helm chart 并发布

目录 helm chart 概述 自动打包 chart 到 github repo 发布 chart 到 K8s 集群 helm chart 概述 在云原生领域,helm chart 是事实上的应用交付标准,一般来说,我们构建 helm chart 之后,有两种方式可以发布 chart: 1)可以通过 helm chart tgz 压缩包进行传输和发布;2)将 chart ...

使用 kruise cloneset lifecycle 管理应用生命周期

目录 kruise 部署安装 cloneset lifecycle 概述 lifecycle 实践 preNormal inPlaceUpdate preDelete kruise 部署安装 根据 kruise 文档 通过 helm 安装。 # Firstly add openkruise charts repo...

配置 keda 使用 prometheus 数据源

目录 hpa 支持 prometheus 指标 keda 支持 prometheus 指标 scaleObject 配置 trigger 中的 metricType AverageValue Value Utilization ...