操作系统是性能分析的根基。不理解内核如何调度进程、管理内存、处理I/O，就像医生不懂人体解剖就去动手术——可能治好，但更可能治坏。

第2章操作系统基础：理解软件栈的每一层

2.1 故事：那个被"低CPU"误导的深夜

凌晨2点，某金融系统的风控服务报警：交易延迟从50ms飙升到800ms。

值班工程师小王看了监控，CPU使用率只有35%，内存用了60%。"资源都不高啊？"他困惑地挠头。

他习惯性地重启了服务。延迟降到了100ms。"好了。"他合上笔记本继续睡觉。

早上8点，报警再次响起。这次更严重——延迟到了2秒，而且重启也不管用。

资深工程师老陈被叫起来。他没看top，而是直接打开了 perf：

perf stat -e cycles,instructions,cache-misses,context-switches -a sleep 10

输出让他皱起眉头：

Performance counter stats for 'sleep 10':
        24,832.21 msec task-clock                #    2.483 CPUs utilized
          147,832      context-switches          #    5.954 K/sec
           12,341      cpu-migrations            #  496.654 /sec
        1,234,567      cache-misses              #   49.715 K/sec

"context-switches 将近6K次每秒？cache-misses 也偏高。"老陈盯着屏幕，"问题不是CPU不够，是CPU在不停地换工作。"

继续深挖：线程池配置过大（500个线程），但CPU只有8核。大量线程在抢锁、切换上下文，真正干活的时间没多少。

根因：线程池配置不合理 → 上下文切换开销 > 实际计算开销。

修复：将线程池调到 16（2×CPU核数），延迟立刻降到 45ms。

小王的"重启疗法"之所以第一次有效，是因为重启清空了线程堆积状态。但根本原因没解决，所以很快复发。

2.2 内核态与用户态

两个世界的划分

graph TD
    subgraph 用户空间
        A[应用程序]
        B[标准库]
        C[Shell]
    end
    
    subgraph 内核空间
        D[系统调用接口]
        E[进程调度]
        F[内存管理]
        G[虚拟文件系统]
        H[网络协议栈]
        I[设备驱动]
    end
    
    A -->|系统调用| D
    B -->|系统调用| D
    
    style A fill:#e8f5e9
    style D fill:#fff3e0

关键区别：

特性	用户态	内核态
特权级别	低（Ring 3）	高（Ring 0）
可直接访问硬件	❌ 不可以	✅ 可以
可直接访问全部内存	❌ 不可以	✅ 可以
出错后果	进程崩溃	系统崩溃（内核panic）
切换开销	—	约1000-3000个时钟周期

系统调用：用户态到内核态的"电话""

sequenceDiagram
    participant App as 应用程序
    participant Lib as glibc
    participant Kernel as 内核
    participant HW as 硬件
    
    App->>Lib: read(fd, buf, size)
    Lib->>Kernel: syscall(SYS_read, fd, buf, size)
    Note over Lib,Kernel: 用户态→内核态
上下文切换
    Kernel->>HW: 发起磁盘I/O
    HW-->>Kernel: 数据就绪（中断）
    Kernel-->>Lib: 返回读取字节数
    Note over Kernel,Lib: 内核态→用户态
上下文切换
    Lib-->>App: 返回结果

性能启示：频繁系统调用 = 频繁上下文切换 = 性能杀手。

优化方向：批量处理（如 readv/writev 替代多次 read/write）。

2.3 进程、线程与调度

进程 vs 线程

graph TD
    subgraph 进程A
        A1[代码段]
        A2[数据段]
        A3[堆]
        A4[文件描述符表]
        subgraph 线程A1
            T1[栈]
            T2[寄存器]
            T3[程序计数器]
        end
        subgraph 线程A2
            T4[栈]
            T5[寄存器]
            T6[程序计数器]
        end
    end
    
    A1 -.共享.-> T1
    A1 -.共享.-> T4
    A2 -.共享.-> T1
    A3 -.共享.-> T4

关键区别：

资源	进程间	线程间
地址空间	独立	共享
代码段	独立（或共享库）	共享
数据/堆	独立	共享
栈	独立	独立
文件描述符	独立	共享（Linux）
切换开销	大（需切换页表）	小（共享页表）

Linux调度器演进

timeline
    title Linux调度器演进
    section 早期
        1991 : O(n) 调度器
             : 遍历所有进程选最优
    section 2.4
        2001 : O(1) 调度器
             : 按优先级数组，常数时间
    section 2.6
        2007 : CFS (完全公平调度)
             : 红黑树，虚拟运行时间
    section 实时
        : SCHED_FIFO / SCHED_RR
        : 实时任务优先

上下文切换的真相

# 查看上下文切换统计
vmstat 1
# procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
#  r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
#  2  0      0  234567  12345 456789    0    0     0     0   23  456  5  2 93  0  0
#                                          ^^^
#                                          上下文切换次数

# 更详细的统计
pidstat -w 1
# 04:32:01 PM   UID       PID   cswch/s nvcswch/s  Command
# 04:32:01 PM     0      1234    234.56    12.34  java
#                  ^^^^ 自愿切换   ^^^^ 非自愿切换（被抢占）

性能启示：

自愿切换多 = 线程在等待（I/O、锁）
非自愿切换多 = CPU竞争激烈，调度器频繁抢占

2.4 虚拟内存

页表与地址翻译

graph LR
    A[虚拟地址] -->|页表翻译| B[物理地址]
    
    subgraph 页表结构
        C[页目录 PGD]
        D[页中间目录 PMD]
        E[页表 PTE]
        F[物理页框]
    end
    
    A --> C --> D --> E --> F --> B

关键概念：

概念	说明	性能影响
页（Page）	4KB（默认）	内存分配的最小单位
页表	虚拟→物理映射表	遍历页表有开销
TLB	页表缓存（CPU内）	TLB miss导致额外内存访问
缺页中断	访问未映射页面	磁盘I/O（major）或清零（minor）
大页（HugePage）	2MB/1GB页	减少TLB miss，提升大内存应用性能

缺页中断类型

graph TD
    A[进程访问内存] -->|虚拟地址未映射| B[缺页中断]
    B -->|页面在磁盘| C[Major Fault
磁盘I/O]<-->D[缓慢]<-->E[SWAP/文件映射]
    B -->|页面未分配| F[Minor Fault
分配+清零]-->G[较快]-->H[匿名内存分配]
    B -->|页面已缓存| I[No Fault
TLB更新]-->J[快]
    
    style C fill:#ffebee
    style F fill:#fff3e0
    style I fill:#e8f5e9

查看命令：

# 查看进程缺页统计
cat /proc/$(pidof java)/stat | awk '{print "minflt:", $10, "majflt:", $12}'

# 实时查看
ps -eo pid,min_flt,maj_flt,comm | head

# 使用perf跟踪
perf stat -e faults,major-faults,minor-faults ./program

2.5 I/O栈：从应用到硬件

文件I/O路径

graph TD
    A[应用程序
read/write] -->|系统调用| B[VFS
虚拟文件系统]
    B --> C[ext4/XFS/ZFS]
    C --> D[页缓存
Page Cache]
    D --> E{数据在缓存?}
    E -->|是| F[直接返回
~ns级]
    E -->|否| G[块层
Block Layer]
    G --> H[I/O调度器]
    H --> I[设备驱动]
    I --> J[磁盘/SSD/NVMe]
    J --> K[磁盘I/O
~ms级]
    
    style F fill:#e8f5e9
    style K fill:#ffebee

关键洞察：Page Cache是性能的关键。重复读取 = 内存速度，首次读取 = 磁盘速度。

网络I/O路径

graph TD
    A[应用程序
send/recv] -->|系统调用| B[Socket层]
    B --> C[TCP/UDP]
    C --> D[IP层]
    D --> E[网卡驱动]
    E --> F[Ring Buffer]
    F --> G[网卡硬件]
    G --> H[物理网络]
    
    I[中断] -->|数据包到达| G
    I -->|NAPI轮询| F
    
    style H fill:#ffebee
    style I fill:#fff3e0

2.6 中断与NAPI

传统中断 vs NAPI

graph LR
    subgraph 传统中断模式
        A[网卡] -->|每包中断| B[CPU]
        B -->|上下文切换| C[处理数据包]
        C -->|返回| D[原进程]
        B -.->|高PPS时
中断风暴| E[CPU被中断淹没]
    end
    
    subgraph NAPI模式
        F[网卡] -->|批量中断| G[CPU]
        G -->|关闭中断| H[轮询处理]
        H -->|批量处理完| I[开启中断]
        I --> J[等待下一批]
        G -.->|高PPS时
更优| K[减少中断次数]
    end
    
    style E fill:#ffebee
    style K fill:#e8f5e9

2.7 本章总结

mindmap
  root((操作系统
基础))
    内核态/用户态
      系统调用是桥梁
      切换有开销
    进程/线程/调度
      上下文切换成本
      CFS公平调度
    虚拟内存
      页表/TLB
      缺页中断
      大页优化
    I/O栈
      VFS层
      页缓存
      块层
      设备驱动
    中断机制
      传统中断
      NAPI轮询

核心要点：

系统调用和上下文切换都有开销——避免频繁触发
TLB miss和缺页中断是内存性能杀手——考虑大页
Page Cache决定文件I/O性能——理解缓存命中率
调度器公平但有成本——线程数不是越多越好

"不理解操作系统，所有的性能优化都是在黑暗中摸索。"

第2章 操作系统基础：理解软件栈的每一层