第15章：容器 - 和平哥的学习笔记

容器（Container）的命名空间（Namespace，隔离机制）把进程藏了起来，但 BPF 运行在宿主机内核态——它天然拥有穿透隔离的上帝视角。

故事场景：老张的"幽灵容器"

周五下午，线上 Kubernetes（K8s，容器编排平台）集群的节点 CPU 使用率突然飙到95%，但 kubectl top node 显示所有 Pod 的 CPU 用量加起来不到30%。

"见鬼了，"小李盯着 Grafana，"这65%的CPU被谁吃了？"

老张 ssh 进节点，先看传统工具：top 显示大量 kworker 和 migration 进程，但这些是内核线程，不属于任何 Pod。docker stats 所有容器的 CPU 都正常。systemd-cgtop（Systemd Control Group Top，cgroups 资源监控工具）倒是看到了一个异常——某个已停止的容器的 cgroup 还在累积 CPU 时间。

"不是幽灵，是僵尸 cgroup，"老张打开 BPF 工具，"但 systemd-cgtop 只能看 cgroup 的统计，看不到谁在往这个 cgroup 里跑。BPF 可以。"

# 追踪所有内核线程，按 cgroup 聚合 CPU 时间
sudo bpftrace -e '
tracepoint:sched:sched_stat_runtime {
    $cgroup = (struct task_struct *)curtask->css.cgroup;
    $kn = $cgroup->kn;
    $name = $kn->name;
    @cpu_ms[str($name)] = sum(args->delta / 1000000);
}
'

输出揭露了真相：一个已被删除的 Pod 的 conmon（Container Monitor，容器监控进程）进程还在运行，它的 kworker 被错误地绑定到了旧 cgroup。这个 conmon 每秒钟触发数千次内核网络软中断，消耗的 CPU 没有被任何容器指标统计到。

"容器不是虚拟机，"老张一边写修复脚本一边说，"它的隔离是进程级的，不是硬件级的。BPF 在宿主机内核里跑，它看到的才是完整的真相。"

小李点点头："以后看到指标对不上，我就先上 BPF。"

核心内容

15.1 容器性能背景与 cgroup 机制

容器（Container）的本质是一组被各种 Linux 内核机制隔离和限制的进程。最核心的两个机制是：

Namespace（命名空间）：隔离视图——PID、网络、挂载点（Mount Point，文件系统挂载位置）、主机名等
cgroup（Control Group，控制组）：隔离资源——CPU、内存、I/O、网络带宽

graph TD
    subgraph "宿主机"
        K1[内核空间] --> K2[cgroup v2 层级]
        K2 --> C1[system.slice]
        K2 --> C2[user.slice]
        K2 --> C3[kubepods.slice]
        C3 --> P1[Pod A]
        C3 --> P2[Pod B]
        P1 --> P1a[Container 1]
        P1 --> P1b[Container 2]
    end
    subgraph "Pod A 的视角"
        V1[PID 1: myapp] --> V2[PID 2: nginx]
        V3[eth0] --> V4[独立IP]
        V5[/var/log] --> V6[overlayfs]
    end
    P1a -. namespace隔离 .-> V1
    P1a -. namespace隔离 .-> V3
    P1a -. namespace隔离 .-> V5

cgroup v2（Control Group Version 2，cgroups 第二版）采用统一的层级结构，所有资源控制器（CPU、memory、IO、pids）挂载在同一棵树上。每个容器对应一个 cgroup 目录，例如 Docker 容器的 cgroup 路径通常是 /sys/fs/cgroup/docker/<container_id>，Kubernetes Pod 则是 /sys/fs/cgroup/kubepods.slice/kubepods-<qos>.slice/...。

BPF 程序可以通过 bpf_get_current_task() 获取当前进程的 task_struct，进而读取其 css.cgroup 指针，找到所属的 cgroup。这是从内核态识别进程所属容器的关键路径：

// 获取当前进程所属的 cgroup 名称
static __always_inline int get_cgroup_name(char *buf, size_t sz) {
    struct task_struct *task = (struct task_struct *)bpf_get_current_task();
    struct cgroup_subsys_state *css = task->css;
    if (!css)
        return -1;
    struct cgroup *cgrp = css->cgroup;
    if (!cgrp)
        return -1;
    struct kernfs_node *kn = cgrp->kn;
    if (!kn)
        return -1;
    const char *name = BPF_CORE_READ(kn, name);
    bpf_probe_read_kernel_str(buf, sz, name);
    return 0;
}

SEC("tp_btf/sched_stat_runtime")
int BPF_PROG(trace_cpu_time, struct task_struct *task, u64 delta) {
    char cgroup_name[64] = {};
    if (get_cgroup_name(cgroup_name, sizeof(cgroup_name)) == 0) {
        u64 *val = bpf_map_lookup_elem(&cpu_time, cgroup_name);
        if (val) {
            __sync_fetch_and_add(val, delta / 1000000);  // 纳秒转毫秒
        }
    }
    return 0;
}

这个能力是传统工具做不到的——docker stats 读取的是 Docker daemon 维护的统计，kubectl top 读取的是 metrics-server 的聚合数据，它们都不包含内核线程和逃逸进程的消耗。而 BPF 在内核态直接读取 task_struct，任何进程都逃不过。

15.2 容器分析的挑战：PID 命名空间与 overlayfs

15.2.1 PID 命名空间隔离

PID Namespace（进程ID命名空间）让每个容器认为自己的 init（初始化）进程是 PID 1，宿主机看到的容器进程则有一个全局 PID。这带来了一个经典的观测陷阱：容器内 top 看到的 PID 和宿主机 top 看到的 PID 不一样。

# 容器内
$ ps aux
PID   USER     COMMAND
    1 root     python app.py
   10 root     nginx: master process

# 宿主机
$ ps aux | grep app.py
PID    USER     COMMAND
89234  root     python app.py  # 这是同一个进程！
89245  root     nginx: master process

BPF 程序运行在宿主机内核态，它天然看到的是全局 PID。但如果 BPF 程序需要关联容器内的视角（比如"这个慢请求是哪个容器的 Nginx 处理的"），就需要做PID 映射。

映射方法：读取 /proc/<host_pid>/status 中的 NStgid 字段，或者用 BPF 直接读取 task_struct 的 nsproxy->pid_ns_for_children 链，找到每个 PID namespace 层级中的局部 PID。

graph LR
    subgraph "PID Namespace 层级"
        A1[宿主机PID NS] --> A2[容器运行时PID NS]
        A2 --> A3[容器内部PID NS]
        A1 --> B1[PID=89234: python]
        A2 --> B2[PID=234: python]
        A3 --> B3[PID=1: python]
    end
    subgraph "BPF视角"
        C1[全局PID=89234]
        C2[容器ID=docker_abc123]
        C3[cgroup路径=/docker/abc123]
    end
    B1 -. 关联 .-> C1
    B2 -. 关联 .-> C2
    B3 -. 映射 .-> C3

15.2.2 overlayfs 性能陷阱

容器镜像层（Container Image Layer）通常通过 overlayfs（Overlay Filesystem，联合文件系统）挂载。overlayfs 的写时复制（Copy-on-Write，写时复制）机制意味着：当容器修改一个来自镜像层的文件时，整个文件会被复制到容器的可写层——即使只改了一个字节。

# 检查容器的 overlayfs 挂载
mount | grep overlay
# 输出示例：
# overlay on /var/lib/docker/overlay2/abc123/merged type overlay
#   (rw,relatime,lowerdir=/var/lib/docker/overlay2/l/XXX:/var/lib/docker/overlay2/l/YYY,
#    upperdir=/var/lib/docker/overlay2/abc123/diff,
#    workdir=/var/lib/docker/overlay2/abc123/work)

BPF 可以追踪 overlayfs 的读/写/复制操作，识别高成本的文件操作：

// 追踪 overlayfs 的 copy-up 操作
SEC("kprobe/ovl_copy_up")
int BPF_KPROBE(trace_ovl_copy_up, struct dentry *dentry) {
    char path[256];
    struct qstr d_name = BPF_CORE_READ(dentry, d_name);
    bpf_probe_read_kernel_str(path, sizeof(path), d_name.name);
    
    u64 pid_tgid = bpf_get_current_pid_tgid();
    u32 pid = pid_tgid >> 32;
    
    bpf_printk("PID %d overlayfs copy-up: %s", pid, path);
    
    // 记录：哪个容器的哪个文件触发了 copy-up
    char cgroup[64];
    get_cgroup_name(cgroup, sizeof(cgroup));
    @copy_up_by_cgroup[str(cgroup)] = count();
    
    return 0;
}

一个实战案例：某团队在容器中运行日志聚合服务，配置文件中设置了 log_path: /var/log/app.log。每次写入日志时，overlayfs 都把 /var/log/app.log 从镜像层复制到可写层——而这个文件有500MB。BPF 追踪 ovl_copy_up 后，团队发现每天发生数千次500MB的文件复制，磁盘 I/O 和容器启动时间被严重拖累。解决方案是挂载一个 volume（数据卷，持久化存储）到 /var/log，绕开 overlayfs。

15.3 从主机分析容器 vs 在容器内分析

容器性能分析有两种策略：

graph TD
    subgraph "策略对比"
        A1[在宿主机分析] --> A2[上帝视角，全容器可见]
        A1 --> A3[需要root权限，能看到所有命名空间]
        A1 --> A4[适合集群级、多租户场景]
        
        B1[在容器内分析] --> B2[容器视角，PID/文件系统一致]
        B1 --> B3[权限受限，看不到宿主机]
        B1 --> B4[适合单容器调试，开发环境]
    end

在宿主机分析的 BPF 方案：

# 追踪所有容器的网络连接，按容器ID聚合
sudo bpftrace -e '
#include <linux/nsproxy.h>
#include <linux/pid_namespace.h>

kprobe:tcp_v4_connect {
    $task = (struct task_struct *)curtask;
    $nsproxy = $task->nsproxy;
    if ($nsproxy) {
        $pid_ns = $nsproxy->pid_ns_for_children;
        $ns_level = $pid_ns->level;
        
        // level > 0 表示不在宿主机 PID namespace
        if ($ns_level > 0) {
            // 通过 cgroup 名称识别容器
            $css = $task->css;
            $cgrp = $css->cgroup;
            $kn = $cgrp->kn;
            $name = $kn->name;
            
            $daddr = ntop(af_inet, args->usin->sin_addr.s_addr);
            $dport = ntohs(args->usin->sin_port);
            
            printf("Container %s connecting to %s:%d\n", 
                   str($name), $daddr, $dport);
        }
    }
}
'

在容器内分析的局限：容器通常以非特权模式运行，没有 CAP_SYS_ADMIN（系统管理权限）和 CAP_BPF（BPF权限），无法加载 BPF 程序。即使以特权模式运行，容器内的 BPF 也只能看到容器自己的 PID namespace——无法关联宿主机视角的系统级事件。

因此，生产环境的容器性能分析首选在宿主机执行 BPF 工具，通过 cgroup 或 PID namespace 过滤目标容器。

15.4 BPF 容器工具生态

针对容器场景，社区已经发展出了一批专用工具：

graph LR
    subgraph "BPF容器工具"
        A1[kubectl-trace] --> A2[在K8s节点上调度bpftrace作业]
        B1[inspektor-gadget] --> B2[K8s-aware的BPF工具集]
        C1[bpftool] --> C3[容器内BTF管理]
        D1[cilium/ebpf] --> D2[Go库，容器友好]
    end
    subgraph "传统工具对比"
        E1[docker stats] --> E2[仅Docker，无内核视角]
        F1[kubectl top] --> F2[聚合指标，无细节]
        G1[systemd-cgtop] --> G2[cgroup统计，无调用栈]
    end
    A2 --> H1[优势：Pod级别火焰图]
    B2 --> H2[优势：网络流量拓扑]
    E2 --> H3[局限：看不到内核线程]
    F2 --> H3
    G2 --> H3

15.4.1 kubectl-trace

kubectl-trace 是一个 Kubernetes 插件，它把 bpftrace 脚本打包成 Pod，调度到目标节点上执行，然后把结果回传到本地。这意味着不需要 SSH 到节点，不需要在节点上安装任何工具——只要 Kubernetes 权限足够，就能从控制平面发起 BPF 追踪。

# 使用 kubectl-trace 追踪某个 Pod 的系统调用
kubectl trace run node-1 -e '
kprobe:__x64_sys_write /cgroup == "kubepods.slice/.../pod-xxxxx" / {
    printf("PID %d wrote %d bytes\n", pid, arg2);
}'

15.4.2 Inspektor Gadget

Inspektor Gadget 是 Microsoft 开源的 K8s-aware（Kubernetes感知）BPF 工具集。它理解 Kubernetes 的语义——Pod、Service、Namespace——并把 BPF 事件自动关联到这些高层概念。

# 使用 Inspektor Gadget 监控所有 Pod 的 TCP 连接
gadgetctl run trace tcp --podname my-app-*

# 输出自动包含 Pod 名、Namespace、容器名——无需手动解析 cgroup

15.4.3 systemd-cgtop 与 cgroup BPF

systemd-cgtop 是一个纯 cgroup 统计工具，它按 cgroup 分组显示 CPU、内存、I/O 用量。但它只能看到 cgroup 级别的聚合数据，无法回答"这个 cgroup 里的进程在调用什么函数"或"为什么这个 cgroup 的 CPU 时间都花在 kworker 上"。

BPF 可以复刻 systemd-cgtop 的核心逻辑，同时叠加调用栈追踪：

# 用 bpftrace 实现一个"增强版 systemd-cgtop"
sudo bpftrace -e '
#include <linux/cgroup.h>
#include <linux/kernfs.h>

tracepoint:sched:sched_stat_runtime {
    $task = (struct task_struct *)args->comm;
    $css = ((struct task_struct *)curtask)->css;
    $cgrp = $css->cgroup;
    $name = $cgrp->kn->name;
    
    // 按 cgroup + 进程名聚合 CPU 时间
    @cpu_ms[str($name), str(args->comm)] = sum(args->delta / 1000000);
}

END {
    printf("\n=== CPU Time by Cgroup and Process ===\n");
    print(@cpu_ms, 10);
}
'

总结

mindmap
  root((容器BPF分析))
    容器隔离机制
      PID Namespace
      Network Namespace
      Mount Namespace
      cgroup资源限制
    分析挑战
      PID映射
      overlayfs写时复制
      特权权限限制
      宿主机vs容器视角
    BPF工具
      kubectl-trace
      Inspektor Gadget
      自定义cgroup追踪
    实战场景
      僵尸cgroup
      overlayfs性能陷阱
      内核线程归属
      网络连接追踪

核心要点：

BPF 天生是容器分析的上帝视角工具：因为它运行在内核态，不受 PID namespace、mount namespace 等隔离机制限制，可以看到所有容器的完整行为。
cgroup 是连接 BPF 与容器语义的关键桥梁：通过 task_struct->css.cgroup，BPF 程序可以把任何一个内核事件关联到"这是哪个 Docker 容器"或"这是哪个 K8s Pod"。
overlayfs 是容器性能的头号隐形杀手：ovl_copy_up 会在你不经意间复制数百MB的文件。BPF 追踪是发现这类问题的最有效手段——传统 I/O 监控工具无法区分 overlayfs 复制和普通文件写入。
生产环境容器分析首选宿主机方案：容器内运行 BPF 受权限限制，且视角狭窄。kubectl-trace 和 Inspektor Gadget 让这种宿主机分析变得安全、可审计、可自动化。
PID namespace 造成的"幽灵进程"是排查陷阱：当容器指标和宿主机指标对不上时，大概率是内核线程、逃逸进程或僵尸 cgroup 在作祟。BPF 的 task_struct 遍历可以揭穿这种幻象。