Toggle navigation
Home
Archive
About
NOTE
2025 回顾与展望
目录 碎碎念的回顾 过年这几天 你想明白了吗? 走投无路了吗? 抗干扰能力 阅读,与智者对话 适者生存 心态 碎碎念的回顾 2025 是挣扎又漫长的一年,AI 涌现,工作内容和形式发生了巨大变化,随着而来的也是一系列不确定性。 我家小孩也慢慢变大了,更需要有人陪伴,我工作日在外面上面,想念家里的小孩是一个大大的负担。 由于自己忍耐力的提升,又在公司里...
K8s 环境下通过 nvidia device plugin 使用 gpu
目录 device plugin 概述 nvidia 实现 部署安装 前置条件 nvidia-toolkit 通过 helm 安装 配置共享 gpu Time-Slicing MPS(Multi-Process Service) MIG(Mult...
假期日记 —— 2025 春节
目录 前言 2025-01-28 2025-01-29 2025-01-30 2025-01-31 2025-02-01 2025-02-02/2025-02-03 2025-02-04 总结 前言 似乎每个春节过的都不太顺心,去年春节前刚搬了家,我爸也刚来上海,一切都是乱糟糟的,尤其是小孩才 7-8 个月,生活还是围着小孩转,当时过年晚上老婆随便吃...
karpenter 中调度与 consolidate 实现
目录 什么时候触发 node 弹出 调度大概过程 节点 consolidate 关键因素:consolidatable condition empty 节点 consolidate 单节点重调度 单例控制器 初始化控制器 singleton source 实现 ...
karpenter 集群扩缩容: 基本概念
目录 karpenter 概述 概念 NodeClass NodePool NodeClaim 调度 consolidate 安装部署 karpenter 概述 karpenter 是一个公有云环境下 K8s 集群扩缩容的项目,主要功能为:在有 pod pending 的时候触发集群节点扩...
在阿里云环境下使用 gpu 机器
目录 1. 概述 2. 使用及使用约束 2.1 安装 ai 套件 2.2 创建节点池 2.3 业务 pod 声明 gpu 资源 3. gpu 调度 3.1 显存与算力调度 3.2 NUMA 拓扑调度 4. 监控 4.1 阿里云监控方案 ...
以容器化方式运行 pytorch 程序
目录 概述 1. pytorch 程序代码 2. Dockerfile 配置 3. 机器配置 3.1 安装 gpu/cuda 驱动 3.2 nvidia-container-toolkit 3.3 部署 gpu device-plugin 4. 通过 job 运行程序 总结 备注 ...
使用 cgroupv2 限制进程资源使用
目录 概述 cpu 限制 memory 限制 io 限制 概述 从 K8s 1.25 开始 cgroupv2 特性变成 stable 状态,很多生产环境也都开始在使用 cgroupv2 了。本文初步研究下 cgroupv2 中的一些概念模型,并通过一些例子来学习下 cgroupv2 的一些特性。 cpu 限制 与 cgroupv1 类似,cgroupv2 支持绑定 c...
docker harbor 管理 helm chart 生命周期
目录 harbor 概述 helm 命令行使用 传统 helm chart 仓库格式 oci 格式 打包上传 chart 在 pulumi 中安装 chart 传统 helm chart 格式 oci 格式的镜像仓库 使用 helm sdk 安装 chart har...
通过 github action 自动打包项目 helm chart 并发布
目录 helm chart 概述 自动打包 chart 到 github repo 发布 chart 到 K8s 集群 helm chart 概述 在云原生领域,helm chart 是事实上的应用交付标准,一般来说,我们构建 helm chart 之后,有两种方式可以发布 chart: 1)可以通过 helm chart tgz 压缩包进行传输和发布;2)将 chart ...
Older Posts →