久久一级二级,日本熟人妻中文字幕在线|...久久国产精品-国产精品_日本一区二区三区中文字幕,中文字慕五区,欧美日韩精品一级,9干视频在线,一线在线不卡免费,亚洲天堂久久在线观看,亚洲天堂激情一区,丁香激情四月

?? 龍蝦新聞

NVIDIA開源GPU動態(tài)資源分配驅(qū)動:Kubernetes支持顯存與算力細粒度隔離復(fù)用

發(fā)布時間:2026-04-16 分類: 龍蝦新聞
摘要:NVIDIA開源GPU動態(tài)資源分配驅(qū)動:Kubernetes里的GPU用法變了NVIDIA把自家GPU動態(tài)資源分配驅(qū)動開源了,直接集成進Kubernetes生態(tài)。這不是加個插件的事——它改寫了GPU在K8s里被調(diào)度、隔離和復(fù)用的基本邏輯。三大老問題,這次真動刀了GPU在K8s里一直卡在“整卡分配”模式,導(dǎo)致三個現(xiàn)實問題:一卡一任務(wù),空轉(zhuǎn)成常態(tài) 比如一個輕量級推理服務(wù)(只需2GB顯存、30%...

封面

NVIDIA開源GPU動態(tài)資源分配驅(qū)動:Kubernetes里的GPU用法變了

NVIDIA把自家GPU動態(tài)資源分配驅(qū)動開源了,直接集成進Kubernetes生態(tài)。這不是加個插件的事——它改寫了GPU在K8s里被調(diào)度、隔離和復(fù)用的基本邏輯。

三大老問題,這次真動刀了

GPU在K8s里一直卡在“整卡分配”模式,導(dǎo)致三個現(xiàn)實問題:

  1. 一卡一任務(wù),空轉(zhuǎn)成常態(tài)
    比如一個輕量級推理服務(wù)(只需2GB顯存、30%算力)仍得獨占一塊A100,剩下90%資源鎖死閑置。
  2. 顯存和算力綁死,沒法拆開用
    傳統(tǒng)device plugin只暴露nvidia.com/gpu: 1,不區(qū)分顯存用量、SM占用率、NVLink帶寬。多租戶場景下,一個訓(xùn)練任務(wù)跑滿顯存,另一個推理任務(wù)直接OOM,但算力其實還有富余。
  3. 調(diào)度過程像黑盒
    kubectl describe pod 看不到GPU實際分配了哪些SM、多少顯存;nvidia-smi 在容器里看到的是整卡視圖,無法確認是否真被隔離。故障排查靠猜,性能調(diào)優(yōu)靠試。

驅(qū)動干了什么?三件事落地

1. 顯存與算力真正可分

驅(qū)動在內(nèi)核層暴露兩個新資源類型:

  • nvidia.com/mig-devices(MIG切片,硬件級隔離)
  • nvidia.com/gpu-memorynvidia.com/gpu-utilization(非MIG卡的軟件級隔離)

示例:為一個LLM推理Pod申請資源

resources:
  limits:
    nvidia.com/gpu-memory: 4Gi
    nvidia.com/gpu-utilization: 50%

驅(qū)動會:

  • 在顯存池中預(yù)留4Gi連續(xù)區(qū)域(通過CUDA_VISIBLE_DEVICES + memory cgroup限制可見范圍)
  • nvidia-smi -r配合--gpu-reset機制限制SM調(diào)度權(quán)重,使該容器最多使用50% GPU時間片
注:非MIG卡的算力隔離依賴NVIDIA驅(qū)動470+版本的nvidia-smi -c(Compute Mode)和內(nèi)核調(diào)度器補丁,實測A10/A100/V100上有效。

2. 資源能伸能縮,不是靜態(tài)切片

  • 擴縮觸發(fā)條件:基于/sys/fs/cgroup/nv/下的實時指標(如memory.current, utilization.gpu),當連續(xù)30秒超閾值自動觸發(fā)重分配
  • 無感遷移:對CUDA應(yīng)用透明,不中斷運行中的kernel,僅調(diào)整后續(xù)launch的資源配額
  • 共享底座:同一塊GPU可同時服務(wù)多個Pod,每個Pod看到的是獨立顯存視圖+受控算力窗口

典型場景:一個訓(xùn)練Pod(占8Gi顯存+70%算力)和三個推理Pod(各占2Gi+20%)共存于單卡A10

3. 多租戶安全不是口號

  • 顯存硬隔離:通過GPU頁表(GPUs with IOMMU support)實現(xiàn)MMU級保護,越界訪問直接觸發(fā)SIGSEGV
  • 算力軟隔離:利用NVIDIA Time-Slicing(TCC模式)+ Linux CFS bandwidth control,防止惡意循環(huán)霸占SM
  • RBAC直通:K8s原生RBAC策略可綁定到nvidia.com/gpu-memory等自定義資源,例如:

    - apiGroups: ["nvidia.com"]
      resources: ["gpu-memory"]
      verbs: ["get", "list"]

對AI基礎(chǔ)設(shè)施的實際影響

  • 利用率翻倍常見:某客戶集群實測,A10卡平均顯存占用從32%升至68%,推理吞吐提升2.1倍(相同QPS下GPU卡數(shù)減少47%)
  • 運維可見性增強kubectl get pods -o wide 新增GPU-MEMORYGPU-UTIL列;kubectl describe node 顯示每塊GPU的實時顯存/算力分配快照
  • 故障域收窄:單個Pod顯存泄漏不再拖垮整卡,其他Pod繼續(xù)運行;算力過載時僅限該Pod降頻,不影響鄰居

OpenClaw生態(tài)怎么接?

  • vLLM適配路徑明確:vLLM 0.4+ 已支持--gpu-memory-utilization參數(shù),配合該驅(qū)動可實現(xiàn)按需預(yù)分配顯存,避免OutOfMemoryError時回退到CPU offload
  • AutoClaw/NanoClaw參考點:驅(qū)動的nvidia.com/gpu-utilization抽象可直接映射到Claw框架的compute_quota概念;其CRI插件設(shè)計(nvidia-container-runtime擴展)為國產(chǎn)運行時提供現(xiàn)成接口范式
  • 集群管理工具鏈:OpenClaw的claw-scheduler插件已驗證兼容該驅(qū)動的Extended Resource API,無需修改核心調(diào)度邏輯

現(xiàn)在就能做的三件事

  1. 開發(fā)者:拉取nvidia/k8s-device-plugin:devel鏡像,啟用--enable-dra=true啟動參數(shù),在測試集群跑通gpu-memory資源請求
  2. 運維:檢查現(xiàn)有GPU節(jié)點驅(qū)動版本(≥470.82.01)、內(nèi)核版本(≥5.10)、是否啟用IOMMU,用nvidia-smi -q -d MEMORY,UTILIZATION驗證指標可讀性
  3. 框架團隊:在containerd配置中添加nvidia-container-runtime作為默認runtime,測試CUDA context初始化是否受gpu-utilization限制影響(實測PyTorch 2.1+、TensorFlow 2.13+無兼容問題)

驅(qū)動代碼已托管在NVIDIA/k8s-dra-driver,MIT許可證,無閉源組件。

返回首頁
高邮市| 鲁甸县| 土默特左旗| 县级市| 沙河市| 离岛区| 蒙城县| 通辽市| 叙永县| 和静县| 涟水县| 林芝县| 滦南县| 来安县| 郧西县| 剑川县| 哈密市| 承德县| 罗山县| 江油市| 贵定县| 苏尼特左旗| 无锡市| 万年县| 平原县| 十堰市| 颍上县| 德惠市| 扎兰屯市| 靖江市| 如东县| 邓州市| 兴文县| 丹凤县| 永善县| 云林县| 陇川县| 双辽市| 长乐市| 杭锦旗| 石楼县|