Kubernetes V1.33–v1.35 更新详解:从原生 Sidecar 到 AI 算力底座

时间线概览

  • v1.33 (Octarine):2025 年 4 月发布,原生 Sidecar GA、安全特性默认启用。
  • v1.34 (Of Wind & Will):2025 年 8 月发布,DRA GA,标志着 AI/GPU 调度进入原生时代。
  • v1.35 (Timbernetes):2025 年 12 月发布,In-Place Pod Resize GA,零中断弹性成为现实。

1. v1.33 “Octarine”:Sidecar 转正与默认安全

v1.33 的关键词是“原生 Sidecar”和“安全默认开启”。这一版把长期实验的能力变成了日常工程可依赖的基础设施。

1.1 原生 Sidecar 容器 (SidecarContainers)【Stable / GA】

  • 状态:在 v1.33 正式 GA,成为稳定特性。
  • 机制:通过特殊的 initContainer 语义与调度顺序控制,Sidecar 使用 restartPolicy: Always,会在主容器之前启动,并在 Pod 生命周期内持续运行。
  • 实际收益
    • Mesh/代理类 Sidecar(Istio、Linkerd)不再与主容器抢启动顺序。
    • Job 场景下不会因为 Sidecar 没退出导致整个 Job 卡住。

1.2 用户命名空间 (User Namespaces)【Beta,默认启用】

  • 状态:v1.33 中,User Namespaces 从 Alpha 升级为 Beta 并默认启用
  • 配置:在 Pod Spec 中通过 hostUsers: false 开启隔离。
  • 安全意义
    • 容器内部仍然看到自己是 root,但在宿主机上映射为非特权用户。
    • 显著降低容器逃逸成功后的破坏半径,适合多租户集群和互联网曝光工作负载。

1.3 Pod 原地资源调整 (In-Place Pod Resize)【Beta,默认启用】

  • 状态:v1.33 中 In-Place Pod Resize 升级为 Beta 并默认开启,支持对 resources.requests/limits 做在线更新。
  • 限制与演进
    • v1.33 Beta 阶段,内存缩容有一定限制,主要鼓励向上扩容。
    • v1.35 才正式 GA 并放宽缩容限制,见后文。

2. v1.34 “Of Wind & Will”:AI 调度与 Node Swap 成熟

v1.34 是 GPU/AI 工作负载的里程碑版本,Dynamic Resource Allocation (DRA) 正式 GA,同时 Node Swap 支持成熟落地。

2.1 动态资源分配 (Dynamic Resource Allocation, DRA)【Stable / GA】

  • 状态:DRA 在 v1.34 正式 GA
  • 核心能力
    • 通过 ResourceClassResourceClaimResourceSlice,允许设备插件以结构化参数暴露资源,而不仅仅是简单计数。
    • 资源请求可以包含诸如显存大小、算力等级、拓扑等属性,而调度器可以基于这些属性进行决策。
  • AI 场景价值
    • 支持 GPU 切片 / 共享等复杂谐振模式,提高 GPU 利用率,减少“整卡闲置”浪费。
    • 为大模型推理和训练提供更精细的资源表达能力,是面向 GPU 等专用硬件的长期方向。

2.2 节点内存交换 (Node Swap Support)【Stable / GA】

  • 状态:Node Swap 功能在 v1.34 中被标记为 GA
  • 配置示例
    • 通过 Kubelet 配置 swapBehavior: LimitedSwap 控制 Swap 用作应急缓冲,而非主力内存。
  • 生产意义
    • 对于内存波动大的服务(Java、Node.js、部分 AI 推理服务),可显著降低因瞬时尖峰导致的 OOM Kill。
    • 与 Pod QoS 策略结合,可以为低优先级工作负载提供“软着陆”通道。

2.3 其他控制面与性能改进

  • API Server 的缓存与 Watch 机制改进,确保在大规模集群中维持一致性和更低的资源占用。
  • 为后续 1.35 的 In-Place Resize GA 提供更平滑的控制面基础。

3. v1.35 “Timbernetes”:零中断扩缩与原生身份

v1.35 是 2025 年的收官版本,重点在于“在运行中修改 Pod”以及让工作负载原生具备证书身份。

3.1 Pod 资源原地更新 (In-Place Pod Resource Updates)【Stable / GA】

  • 状态:在 v1.35 正式 GA
  • 关键增强
    • 相比 v1.33 Beta 版本,GA 版本支持更安全可控的内存缩容,而不仅仅是向上扩容。
    • 与 VPA / 自研控制器集成后,可以实现真正意义上的“在线垂直伸缩”。
  • 典型用例
    • 长连接服务(数据库、游戏服务器)在流量峰值后无须重启即可缩回资源。
    • AI/ML 推理服务根据日内流量动态调整 CPU/内存,提升集群总体利用率。

3.2 原生工作负载身份 (Native Workload Identity / Pod Certificates)【Beta】

  • 状态:v1.35 中以 Beta 形式发布。
  • 机制
    • 结合 ClusterTrustBundles,Kubelet 能为 Pod 申请短周期 X.509 证书,并通过投影卷挂载入容器。
    • 与现有的 CSR API 对接,为未来无 Sidecar 的 Service Mesh(如 Ambient Mesh)奠定基础。
  • 价值
    • 工作负载之间可以原生 mTLS 通信,无需再额外运行 Sidecar 代理。
    • 证书的生命周期管理与 Pod 绑定,更容易实现零信任架构。

3.3 节点声明特性 (Node Declared Features)【Alpha】

  • 状态:在 v1.35 作为 Alpha 特性发布。
  • 目的
    • 让节点主动报告特性(CPU 族、特殊硬件、驱动版本等),调度器可以使用这些特性做更精准的放置决策。
    • 对于混合集群(不同 GPU 型号/网卡)的升级与灰度非常有帮助。

4. 关键功能状态速查表

功能领域 对应特性 v1.35 状态 生产建议
Sidecar 管理 SidecarContainers GA (Stable) 新增/改造 Mesh / 日志代理时优先使用原生 Sidecar。
AI / GPU 调度 Dynamic Resource Allocation (DRA) GA (Stable) GPU 平台建议以 DRA 为长期目标架构。
垂直伸缩 In-Place Pod Resize GA (Stable) 高可用服务应该尽快结合 VPA 使用,降低重启率。
节点稳定性 Node Swap Support GA (Stable) 按需开启,结合 QoS 类别谨慎使用。
安全隔离 User Namespaces Beta / 默认开启 多租户、高风险场景建议开启并验证兼容性。
原生身份 Native Workload Identity / Pod Certificates Beta 适合作为 Mesh / 零信任试点项目的基础能力。

5. 升级建议(2026 年视角)

  • 如果集群以 AI/ML 工作负载为核心至少升级到 v1.34,充分利用 DRA 与 Node Swap 的能力。
  • 如果对 发布不中断 有严格要求(长连接服务):
    • 优先考虑升级至 v1.35,并在预生产环境演练 In-Place Resize 与 VPA 联动策略。
  • 如果集群是 强多租户或安全敏感
    • 从 v1.33 开始积极使用 User Namespaces,并关注后续版本的 GA 路线。

从整体演进来看,v1.33–v1.35 让 Kubernetes 从“容器编排器”升级为“AI 算力与零信任平台”的通用底座,是 2026 年规划集群升级路线时必须重点考虑的三个版本节点。