Kubernetes V1.33–v1.35 更新详解：从原生 Sidecar 到 AI 算力底座

Shengxu included in Kubernetes Cloud Security

2026-01-02 About 500 words 2 minutes

Contents

时间线概览

v1.33 的关键词是“原生 Sidecar”和“安全默认开启”。这一版把长期实验的能力变成了日常工程可依赖的基础设施。

状态：在 v1.33 正式 GA，成为稳定特性。
机制：通过特殊的 initContainer 语义与调度顺序控制，Sidecar 使用 restartPolicy: Always，会在主容器之前启动，并在 Pod 生命周期内持续运行。
实际收益：
- Mesh/代理类 Sidecar（Istio、Linkerd）不再与主容器抢启动顺序。
- Job 场景下不会因为 Sidecar 没退出导致整个 Job 卡住。

状态：v1.33 中，User Namespaces 从 Alpha 升级为 Beta 并默认启用。
配置：在 Pod Spec 中通过 hostUsers: false 开启隔离。
安全意义：
- 容器内部仍然看到自己是 root，但在宿主机上映射为非特权用户。
- 显著降低容器逃逸成功后的破坏半径，适合多租户集群和互联网曝光工作负载。

状态：v1.33 中 In-Place Pod Resize 升级为 Beta 并默认开启，支持对 resources.requests/limits 做在线更新。
限制与演进：
- v1.33 Beta 阶段，内存缩容有一定限制，主要鼓励向上扩容。
- v1.35 才正式 GA 并放宽缩容限制，见后文。

v1.34 是 GPU/AI 工作负载的里程碑版本，Dynamic Resource Allocation (DRA) 正式 GA，同时 Node Swap 支持成熟落地。

状态：DRA 在 v1.34 正式 GA。
核心能力：
- 通过 ResourceClass、ResourceClaim 和 ResourceSlice，允许设备插件以结构化参数暴露资源，而不仅仅是简单计数。
- 资源请求可以包含诸如显存大小、算力等级、拓扑等属性，而调度器可以基于这些属性进行决策。
AI 场景价值：
- 支持 GPU 切片 / 共享等复杂谐振模式，提高 GPU 利用率，减少“整卡闲置”浪费。
- 为大模型推理和训练提供更精细的资源表达能力，是面向 GPU 等专用硬件的长期方向。

状态：Node Swap 功能在 v1.34 中被标记为 GA。
配置示例：
- 通过 Kubelet 配置 swapBehavior: LimitedSwap 控制 Swap 用作应急缓冲，而非主力内存。
生产意义：
- 对于内存波动大的服务（Java、Node.js、部分 AI 推理服务），可显著降低因瞬时尖峰导致的 OOM Kill。
- 与 Pod QoS 策略结合，可以为低优先级工作负载提供“软着陆”通道。

v1.35 是 2025 年的收官版本，重点在于“在运行中修改 Pod”以及让工作负载原生具备证书身份。

状态：在 v1.35 正式 GA。
关键增强：
- 相比 v1.33 Beta 版本，GA 版本支持更安全可控的内存缩容，而不仅仅是向上扩容。
- 与 VPA / 自研控制器集成后，可以实现真正意义上的“在线垂直伸缩”。
典型用例：
- 长连接服务（数据库、游戏服务器）在流量峰值后无须重启即可缩回资源。
- AI/ML 推理服务根据日内流量动态调整 CPU/内存，提升集群总体利用率。

状态：v1.35 中以 Beta 形式发布。
机制：
- 结合 ClusterTrustBundles，Kubelet 能为 Pod 申请短周期 X.509 证书，并通过投影卷挂载入容器。
- 与现有的 CSR API 对接，为未来无 Sidecar 的 Service Mesh（如 Ambient Mesh）奠定基础。
价值：
- 工作负载之间可以原生 mTLS 通信，无需再额外运行 Sidecar 代理。
- 证书的生命周期管理与 Pod 绑定，更容易实现零信任架构。

状态：在 v1.35 作为 Alpha 特性发布。
目的：
- 让节点主动报告特性（CPU 族、特殊硬件、驱动版本等），调度器可以使用这些特性做更精准的放置决策。
- 对于混合集群（不同 GPU 型号/网卡）的升级与灰度非常有帮助。

功能领域	对应特性	v1.35 状态	生产建议
Sidecar 管理	SidecarContainers	GA (Stable)	新增/改造 Mesh / 日志代理时优先使用原生 Sidecar。
AI / GPU 调度	Dynamic Resource Allocation (DRA)	GA (Stable)	GPU 平台建议以 DRA 为长期目标架构。
垂直伸缩	In-Place Pod Resize	GA (Stable)	高可用服务应该尽快结合 VPA 使用，降低重启率。
节点稳定性	Node Swap Support	GA (Stable)	按需开启，结合 QoS 类别谨慎使用。
安全隔离	User Namespaces	Beta / 默认开启	多租户、高风险场景建议开启并验证兼容性。
原生身份	Native Workload Identity / Pod Certificates	Beta	适合作为 Mesh / 零信任试点项目的基础能力。

如果集群以 AI/ML 工作负载为核心：至少升级到 v1.34，充分利用 DRA 与 Node Swap 的能力。
如果对 发布不中断 有严格要求（长连接服务）：
- 优先考虑升级至 v1.35，并在预生产环境演练 In-Place Resize 与 VPA 联动策略。
如果集群是 强多租户或安全敏感：
- 从 v1.33 开始积极使用 User Namespaces，并关注后续版本的 GA 路线。

从整体演进来看，v1.33–v1.35 让 Kubernetes 从“容器编排器”升级为“AI 算力与零信任平台”的通用底座，是 2026 年规划集群升级路线时必须重点考虑的三个版本节点。