BPF是Linux性能分析的新纪元。它安全、高效、动态——让内核变成了一个可编程的观测平台。你不再需要重启服务、加载内核模块、或者重新编译代码，就能在生产环境实时追踪任何你想知道的事情。

第10章 BPF前沿：内核里的可编程探针

10.1 故事：生产环境里的"幽灵卡顿"

2023年冬天，某视频平台的推荐服务出现了一个诡异问题：每天凌晨2点到3点之间，服务会不定期卡顿3-5秒，没有任何规律。监控显示CPU、内存、磁盘、网络全都正常，日志里也没有异常。

"像幽灵一样。"SRE阿杰连续熬夜三天，传统工具全都束手无策。

perf top：没有热点函数。
iostat：磁盘空闲。
vmstat：没有上下文切换峰值。
strace：没有异常系统调用。

问题在哪？

直到阿杰用BPF工具 offcputime 做了一次Off-CPU分析，真相才浮出水面：

sudo offcputime-bpfcc -p $(pidof recommend-service) 30 > offcpu.stacks

火焰图显示，在卡顿时刻，大量线程堆栈停留在：

__mutex_lock_slowpath
    └── vfs_lock_file
        └── ext4_file_write_iter

文件系统级锁竞争！ 凌晨2点是日志轮转时间，logrotate触发压缩和清理，瞬间产生大量文件操作。ext4的inode锁在高压下成为瓶颈，导致推荐服务的写日志线程被阻塞。

根因：logrotate的并发压缩任务与业务日志写入竞争ext4 inode锁。

修复：将日志压缩任务移到4点，并启用 delaylog 挂载选项减少metadata同步频率。

这个案例的启示：传统CPU分析工具只能看到"在跑什么"，看不到"为什么没在跑"。BPF的Off-CPU分析填补了这块盲区。

10.2 BPF技术演进

timeline
    title BPF演进史
    section 1992
        cBPF : tcpdump包过滤
             : 经典BPF
    section 2011
        eBPF : 从网络扩展到通用内核
             : Linux 3.18引入
    section 2014
        BPF Maps : 内核-用户空间数据交换
    section 2016
        BCC : Python前端
             : 开箱即用工具集
    section 2018
        bpftrace : 类awk语法
             : 一行命令追踪
    section 2020+
        CO-RE : Compile Once Run Everywhere
              : 内核版本无关
              : 生产环境可移植

BPF的核心优势：

特性	传统内核模块	BPF
安全性	可能panic	验证器保证安全
性能	接近原生	JIT编译为机器码
动态性	需重启/加载	运行时attach/detach
开发难度	高（内核开发）	中（C子集）
维护成本	高	低

10.3 BCC工具集实战

安装与基础用法

# Ubuntu/Debian
sudo apt install bpfcc-tools linux-headers-$(uname -r)

# CentOS/RHEL
sudo yum install bcc-tools kernel-devel-$(uname -r)

# 工具位置
/usr/share/bcc/tools/

进程追踪：execsnoop

# 实时追踪新进程创建
sudo execsnoop-bpfcc
# TIME(s) PID  PPID ARGS
# 0.000   1234 1    /usr/bin/python3 /opt/script.py
# 2.345   1235 1234 /bin/sh -c rm -rf /tmp/old

场景：排查是谁在不停创建短生命周期进程、发现隐藏的定时任务。

文件追踪：opensnoop

# 追踪文件打开操作
sudo opensnoop-bpfcc -T -x
# -T: 显示时间戳
# -x: 只显示失败的open

# 输出示例：
# TIME(s) PID  COMM   FD ERR PATH
# 1.234   5678 nginx  -1  2 /var/log/nginx/access.log.20240101
# 错误码2 = ENOENT，文件不存在！

场景：定位"File not found"的根因、发现配置文件加载顺序问题。

磁盘I/O追踪：biosnoop

# 追踪每个I/O请求的延迟
sudo biosnoop-bpfcc
# TIME(s) COMM  PID  DISK  T SECTOR  BYTES  LAT(ms)
# 0.000   mysql 1234 nvme0n1 W 1234567 8192   0.45
# 0.001   mysql 1234 nvme0n1 W 1234569 8192   12.34  ← 异常延迟！

场景：精确定位"哪个进程、哪次I/O"产生了延迟尖刺。

调度延迟：runqlat

# 统计CPU调度延迟分布
sudo runqlat-bpfcc 10  # 采样10秒

# 输出：
# usec      : count  distribution
# 0 -> 1    : 89234  |************************************|
# 2 -> 3    : 12345  |*****                               |
# 4 -> 7    : 4567   |**                                  |
# 8 -> 15   : 234    |                                    |
# 16 -> 31  : 89     |                                    |
# 32 -> 63  : 12     |                                    |
# 64 -> 127 : 3      |                                    |
# 128 -> 255: 1      |                                    |
# 256 -> 511: 0      |                                    |
# 512 -> 1023: 1     |                                    |

解读：绝大多数线程在1微秒内被调度，但有1个线程等了512微秒以上——说明存在CPU竞争。

10.4 bpftrace：一行命令的艺术

语法风格

# 基本结构
probe /filter/ { action }

# 示例：统计每个进程的系统调用次数
bpftrace -e 'tracepoint:raw_syscalls:sys_enter { @[comm] = count(); }'

# 示例：追踪函数入参
bpftrace -e 'kprobe:do_nanosleep { printf("%s sleep %d ns\n", comm, arg0); }'

# 示例：统计TCP目标IP连接数
bpftrace -e 'kprobe:tcp_connect { 
    @[ntop(AF_INET, args->sk->__sk_common.skc_daddr)] = count(); 
}'

实战脚本

# 1. 追踪文件读取热点（按进程统计）
bpftrace -e 'kprobe:vfs_read { 
    @[comm, str(args->file->f_path.dentry->d_name.name)] = count(); 
}'

# 2. 追踪内存分配（超过1MB的分配）
bpftrace -e 'kprobe:__kmalloc /arg0 > 1048576/ { 
    printf("Large alloc: %d bytes by %s\n", arg0, comm); 
}'

# 3. 追踪慢速系统调用（超过100ms）
bpftrace -e 'tracepoint:raw_syscalls:sys_enter { @start[tid] = nsecs; }
tracepoint:raw_syscalls:sys_exit /@start[tid]/ {
    $dur = (nsecs - @start[tid]) / 1000000;
    if ($dur > 100) {
        printf("Slow syscall: %d ms, pid=%d, comm=%s\n", $dur, pid, comm);
    }
    delete(@start[tid]);
}'

# 4. Off-CPU火焰图数据收集
bpftrace -e 'kprobe:finish_task_switch { 
    $prev = (struct task_struct *)arg0;
    if ($prev->state == 1 || $prev->state == 2) {  # TASK_INTERRUPTIBLE || TASK_UNINTERRUPTIBLE
        @start[$prev->pid] = nsecs;
    }
}

tracepoint:sched:sched_switch {
    if (@start[pid]) {
        $dur = (nsecs - @start[pid]) / 1000;  # 微秒
        @[ustack, comm] = hist($dur);
        delete(@start[pid]);
    }
}'

10.5 火焰图：从文本到视觉

生成CPU火焰图

# 1. 用BCC profile采集
sudo profile-bpfcc -F 99 -adf 60 > out.stacks
# -F 99: 每秒99次采样（避免与定时器对齐）
# -a: 所有CPU
# -d: 包含内核栈
# -f: 折叠格式
# 60: 采样60秒

# 2. 生成SVG火焰图
git clone https://github.com/brendangregg/FlameGraph.git
cd FlameGraph
./flamegraph.pl --title "CPU Flame Graph" < out.stacks > cpu.svg

生成Off-CPU火焰图

# 1. 用BCC offcputime采集
sudo offcputime-bpfcc -p $(pidof java) 60 > offcpu.stacks

# 2. 生成火焰图
./flamegraph.pl --title "Off-CPU Flame Graph" --color=io < offcpu.stacks > offcpu.svg

阅读火焰图

graph LR
    A[火焰图阅读指南] --> B[宽度 = 时间占比]
    A --> C[高度 = 调用栈深度]
    D --> E[越宽 = 越热]
    B --> F[颜色 = 随机区分]
    C --> G[顶层 = 入口函数]
    C --> H[底层 = 叶子函数]

10.6 生产环境使用建议

风险评估

场景	开销	建议
CPU采样（99Hz）	< 1%	安全，长期运行
函数追踪（所有函数）	5-20%	短期诊断
磁盘I/O追踪	3-10%	按需启用
网络包过滤	1-5%	可控
内存分配追踪	10-50%	仅在测试环境

内核版本要求

# 查看BPF支持状态
uname -r
# Linux 4.1+: 基础BPF支持
# Linux 4.9+: BCC工具可用
# Linux 5.x+: 最佳体验，支持更多probe类型

# 检查配置
zcat /proc/config.gz | grep BPF
CONFIG_BPF=y
CONFIG_BPF_SYSCALL=y
CONFIG_BPF_JIT=y
CONFIG_HAVE_BPF_JIT=y
CONFIG_BPF_EVENTS=y

10.7 本章总结

mindmap
  root((BPF前沿))
    核心优势
      安全
      高效
      动态
    BCC工具
      execsnoop
      opensnoop
      biosnoop
      runqlat
      offcputime
      profile
    bpftrace
      一行命令
      类awk语法
      快速验证
    火焰图
      CPU火焰图
      Off-CPU火焰图
      可视化定位
    生产建议
      采样频率控制
      版本兼容性
      开销评估

核心要点：

BPF是安全的内核编程——验证器确保不会crash，JIT编译保证性能
BCC是开箱即用的工具箱——execsnoop、opensnoop、biosnoop等覆盖常见诊断场景
bpftrace是快速验证的利器——一行命令即可追踪系统调用、函数入参、延迟分布
火焰图是BPF的最佳搭档——将枯燥的文本堆栈转化为直观的性能热力图
Off-CPU分析与CPU分析同等重要——很多性能问题不是"跑太慢"，而是"等太久"

"BPF让内核变成了一个可编程的观测平台。以前需要写内核模块、重新编译、重启机器的事情，现在可以在生产环境实时完成——这就是Linux性能分析的范式转移。"

系列文章索引：