Kubernetes V1.33–v1.35 更新详解:从原生 Sidecar 到 AI 算力底座
Contents
时间线概览
- v1.33 (Octarine):2025 年 4 月发布,原生 Sidecar GA、安全特性默认启用。
- v1.34 (Of Wind & Will):2025 年 8 月发布,DRA GA,标志着 AI/GPU 调度进入原生时代。
- v1.35 (Timbernetes):2025 年 12 月发布,In-Place Pod Resize GA,零中断弹性成为现实。
1. v1.33 “Octarine”:Sidecar 转正与默认安全
v1.33 的关键词是“原生 Sidecar”和“安全默认开启”。这一版把长期实验的能力变成了日常工程可依赖的基础设施。
1.1 原生 Sidecar 容器 (SidecarContainers)【Stable / GA】
- 状态:在 v1.33 正式 GA,成为稳定特性。
- 机制:通过特殊的
initContainer语义与调度顺序控制,Sidecar 使用restartPolicy: Always,会在主容器之前启动,并在 Pod 生命周期内持续运行。 - 实际收益:
- Mesh/代理类 Sidecar(Istio、Linkerd)不再与主容器抢启动顺序。
- Job 场景下不会因为 Sidecar 没退出导致整个 Job 卡住。
1.2 用户命名空间 (User Namespaces)【Beta,默认启用】
- 状态:v1.33 中,User Namespaces 从 Alpha 升级为 Beta 并默认启用。
- 配置:在 Pod Spec 中通过
hostUsers: false开启隔离。 - 安全意义:
- 容器内部仍然看到自己是
root,但在宿主机上映射为非特权用户。 - 显著降低容器逃逸成功后的破坏半径,适合多租户集群和互联网曝光工作负载。
- 容器内部仍然看到自己是
1.3 Pod 原地资源调整 (In-Place Pod Resize)【Beta,默认启用】
- 状态:v1.33 中 In-Place Pod Resize 升级为 Beta 并默认开启,支持对
resources.requests/limits做在线更新。 - 限制与演进:
- v1.33 Beta 阶段,内存缩容有一定限制,主要鼓励向上扩容。
- v1.35 才正式 GA 并放宽缩容限制,见后文。
2. v1.34 “Of Wind & Will”:AI 调度与 Node Swap 成熟
v1.34 是 GPU/AI 工作负载的里程碑版本,Dynamic Resource Allocation (DRA) 正式 GA,同时 Node Swap 支持成熟落地。
2.1 动态资源分配 (Dynamic Resource Allocation, DRA)【Stable / GA】
- 状态:DRA 在 v1.34 正式 GA。
- 核心能力:
- 通过
ResourceClass、ResourceClaim和ResourceSlice,允许设备插件以结构化参数暴露资源,而不仅仅是简单计数。 - 资源请求可以包含诸如显存大小、算力等级、拓扑等属性,而调度器可以基于这些属性进行决策。
- 通过
- AI 场景价值:
- 支持 GPU 切片 / 共享等复杂谐振模式,提高 GPU 利用率,减少“整卡闲置”浪费。
- 为大模型推理和训练提供更精细的资源表达能力,是面向 GPU 等专用硬件的长期方向。
2.2 节点内存交换 (Node Swap Support)【Stable / GA】
- 状态:Node Swap 功能在 v1.34 中被标记为 GA。
- 配置示例:
- 通过 Kubelet 配置
swapBehavior: LimitedSwap控制 Swap 用作应急缓冲,而非主力内存。
- 通过 Kubelet 配置
- 生产意义:
- 对于内存波动大的服务(Java、Node.js、部分 AI 推理服务),可显著降低因瞬时尖峰导致的 OOM Kill。
- 与 Pod QoS 策略结合,可以为低优先级工作负载提供“软着陆”通道。
2.3 其他控制面与性能改进
- API Server 的缓存与 Watch 机制改进,确保在大规模集群中维持一致性和更低的资源占用。
- 为后续 1.35 的 In-Place Resize GA 提供更平滑的控制面基础。
3. v1.35 “Timbernetes”:零中断扩缩与原生身份
v1.35 是 2025 年的收官版本,重点在于“在运行中修改 Pod”以及让工作负载原生具备证书身份。
3.1 Pod 资源原地更新 (In-Place Pod Resource Updates)【Stable / GA】
- 状态:在 v1.35 正式 GA。
- 关键增强:
- 相比 v1.33 Beta 版本,GA 版本支持更安全可控的内存缩容,而不仅仅是向上扩容。
- 与 VPA / 自研控制器集成后,可以实现真正意义上的“在线垂直伸缩”。
- 典型用例:
- 长连接服务(数据库、游戏服务器)在流量峰值后无须重启即可缩回资源。
- AI/ML 推理服务根据日内流量动态调整 CPU/内存,提升集群总体利用率。
3.2 原生工作负载身份 (Native Workload Identity / Pod Certificates)【Beta】
- 状态:v1.35 中以 Beta 形式发布。
- 机制:
- 结合
ClusterTrustBundles,Kubelet 能为 Pod 申请短周期 X.509 证书,并通过投影卷挂载入容器。 - 与现有的 CSR API 对接,为未来无 Sidecar 的 Service Mesh(如 Ambient Mesh)奠定基础。
- 结合
- 价值:
- 工作负载之间可以原生 mTLS 通信,无需再额外运行 Sidecar 代理。
- 证书的生命周期管理与 Pod 绑定,更容易实现零信任架构。
3.3 节点声明特性 (Node Declared Features)【Alpha】
- 状态:在 v1.35 作为 Alpha 特性发布。
- 目的:
- 让节点主动报告特性(CPU 族、特殊硬件、驱动版本等),调度器可以使用这些特性做更精准的放置决策。
- 对于混合集群(不同 GPU 型号/网卡)的升级与灰度非常有帮助。
4. 关键功能状态速查表
| 功能领域 | 对应特性 | v1.35 状态 | 生产建议 |
|---|---|---|---|
| Sidecar 管理 | SidecarContainers | GA (Stable) | 新增/改造 Mesh / 日志代理时优先使用原生 Sidecar。 |
| AI / GPU 调度 | Dynamic Resource Allocation (DRA) | GA (Stable) | GPU 平台建议以 DRA 为长期目标架构。 |
| 垂直伸缩 | In-Place Pod Resize | GA (Stable) | 高可用服务应该尽快结合 VPA 使用,降低重启率。 |
| 节点稳定性 | Node Swap Support | GA (Stable) | 按需开启,结合 QoS 类别谨慎使用。 |
| 安全隔离 | User Namespaces | Beta / 默认开启 | 多租户、高风险场景建议开启并验证兼容性。 |
| 原生身份 | Native Workload Identity / Pod Certificates | Beta | 适合作为 Mesh / 零信任试点项目的基础能力。 |
5. 升级建议(2026 年视角)
- 如果集群以 AI/ML 工作负载为核心:至少升级到 v1.34,充分利用 DRA 与 Node Swap 的能力。
- 如果对 发布不中断 有严格要求(长连接服务):
- 优先考虑升级至 v1.35,并在预生产环境演练 In-Place Resize 与 VPA 联动策略。
- 如果集群是 强多租户或安全敏感:
- 从 v1.33 开始积极使用 User Namespaces,并关注后续版本的 GA 路线。
从整体演进来看,v1.33–v1.35 让 Kubernetes 从“容器编排器”升级为“AI 算力与零信任平台”的通用底座,是 2026 年规划集群升级路线时必须重点考虑的三个版本节点。