前言
这里主要讲的是 linux 的 oom killer 机制
在系统可用内存较少的情况下,内核为保证系统还能够继续运行下去,会选择杀掉一些进程释放掉一些内存。
 通常oom_killer的触发流程是:进程A想要分配物理内存(通常是读写内存)->触发缺页异常->内核去分配物理内存->物理内存不足,触发OOM。
测试用例
只要写一个 main, 不断地 malloc, 然后 访问一下 分配的空间即可
然后 编译, 运行程序, 最终 linux 会 kill 这个进程
完整的 oom_score 日志输出如下
[  231.115880] Test06Unlimited invoked oom-killer: gfp_mask=0x14280ca(GFP_HIGHUSER_MOVABLE|__GFP_ZERO), nodemask=0, order=0, oom_score_adj=0
[  231.118999] Test06Unlimited cpuset=/ mems_allowed=0
[  231.121073] CPU: 0 PID: 253 Comm: Test06Unlimited Not tainted 4.10.14 #1
[  231.122613] Hardware name: QEMU Standard PC (i440FX + PIIX, 1996), BIOS Ubuntu-1.8.2-1ubuntu1 04/01/2014
[  231.124569] Call Trace:
[  231.124569]  __dump_stack+0x1f/0x21
[  231.124569]  dump_stack+0x58/0x76
[  231.124569]  dump_header+0x71/0xb1
[  231.124569]  oom_kill_process+0x9d/0x365
[  231.124569]  ? oom_evaluate_task+0x8d/0x10c
[  231.124569]  out_of_memory+0x1a6/0x1f1
[  231.124569]  __alloc_pages_slowpath+0xa75/0xae4
[  231.124569]  __alloc_pages_nodemask+0x161/0x218
[  231.124569]  alloc_pages_vma+0x1b4/0x235
[  231.124569]  do_anonymous_page+0x27a/0x585
[  231.124569]  handle_pte_fault+0x115/0x235
[  231.124569]  __handle_mm_fault+0x2b4/0x2ea
[  231.124569]  handle_mm_fault+0x148/0x1f0
[  231.124569]  __do_page_fault+0x40c/0x511
[  231.124569]  do_page_fault+0x22/0x27
[  231.124569]  page_fault+0x28/0x30
[  231.124569] RIP: 0033:0x7f0bf714d3e2
[  231.124569] RSP: 002b:00007ffca24d61d0 EFLAGS: 00000206
[  231.124569] RAX: 0000000000020b21 RBX: 00007f0bf7490b20 RCX: 0000000000100011
[  231.124569] RDX: 0000003c15d8f4e0 RSI: 0000003c15e8f4e0 RDI: 00007f0bf7490b20
[  231.124569] RBP: 0000000000100011 R08: 0000003c15db0000 R09: 00007f0bf76b8700
[  231.124569] R10: 0000003c15db0000 R11: 0000000000000001 R12: 0000000000120b31
[  231.124569] R13: 0000003c15d8f4d0 R14: 0000000000100000 R15: 0000000000100000
[  231.135287] Mem-Info:
[  231.136124] active_anon:312765 inactive_anon:8 isolated_anon:0
[  231.136124]  active_file:1 inactive_file:12 isolated_file:0
[  231.136124]  unevictable:24494 dirty:0 writeback:0 unstable:0
[  231.136124]  slab_reclaimable:2145 slab_unreclaimable:1265
[  231.136124]  mapped:653 shmem:8 pagetables:155990 bounce:0
[  231.136124]  free:13189 free_pcp:150 free_cma:0
[  231.140296] Node 0 active_anon:1251060kB inactive_anon:32kB active_file:4kB inactive_file:48kB unevictable:97976kB isolated(anon):0kB isolated(file):0kB mapped:2612kB dirty:0kB writeback:0kB shmem:32kB shmem_thp: 0kB shmem_pmdmapped: 0kB anon_thp: 0kB writeback_tmp:0kB unstable:0kB pages_scanned:3181 all_unreclaimable? yes
[  231.141882] Node 0 DMA free:8132kB min:356kB low:444kB high:532kB active_anon:5140kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:15992kB managed:15908kB mlocked:0kB slab_reclaimable:0kB slab_unreclaimable:4kB kernel_stack:0kB pagetables:2588kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB
[  231.143295] lowmem_reserve[]: 0 1945 1945 1945 1945
[  231.143840] Node 0 DMA32 free:44624kB min:44696kB low:55868kB high:67040kB active_anon:1245932kB inactive_anon:32kB active_file:4kB inactive_file:48kB unevictable:97976kB writepending:0kB present:2080640kB managed:2032384kB mlocked:0kB slab_reclaimable:8580kB slab_unreclaimable:5056kB kernel_stack:992kB pagetables:621372kB bounce:0kB free_pcp:600kB local_pcp:600kB free_cma:0kB
[  231.145484] lowmem_reserve[]: 0 0 0 0 0
[  231.145639] Node 0 DMA: 1*4kB (U) 0*8kB 0*16kB 0*32kB 1*64kB (M) 1*128kB (M) 1*256kB (M) 1*512kB (M) 1*1024kB (U) 1*2048kB (U) 1*4096kB (M) = 8132kB
[  231.146861] Node 0 DMA32: 2*4kB (UM) 11*8kB (UE) 5*16kB (UE) 7*32kB (ME) 5*64kB (UME) 5*128kB (UE) 3*256kB (UME) 1*512kB (M) 1*1024kB (M) 2*2048kB (ME) 9*4096kB (M) = 44624kB
[  231.147655] Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB
[  231.148490] 24515 total pagecache pages
[  231.148622] 0 pages in swap cache
[  231.148784] Swap cache stats: add 0, delete 0, find 0/0
[  231.149277] Free swap  = 0kB
[  231.149358] Total swap = 0kB
[  231.149506] 524158 pages RAM
[  231.149634] 0 pages HighMem/MovableOnly
[  231.149977] 12085 pages reserved
[  231.150064] 0 pages cma reserved
[  231.150148] 0 pages hwpoisoned
[  231.150292] [ pid ]   uid  tgid total_vm      rss nr_ptes nr_pmds swapents oom_score_adj name
[  231.151042] [  112]     0   112     6615      596      17       3        0         -1000 systemd-udevd
[  231.151642] [  241]     0   241     1169      425       8       3        0             0 sh
[  231.152080] [  253]     0   253 79844610   312881  155953     307        0             0 Test06Unlimited
[  231.152734] Out of memory: Kill process 253 (Test06Unlimited) score 888 or sacrifice child
oom-killer 进程的选择
场景是操作系统在申请物理内存的时候 资源已经没有了
然后 导致操作系统需要选择一个 物理内存占用相对较高的进程进行杀掉
然后 这里来看一下 具体的情况
这里是根据策略寻找一个 最佳匹配的进程
然后下面 oom_kill_process 发送信号, 杀掉对应的进程

select_bad_process 相关
循环所有的进程, 计算 oom_score, oc 中记录 oom_score 最大的分数, 以及对应的进程

oom_evaluate_task 相关
某一些进程不能杀, 直接跳过 比如 init进程, 内核进程
如果给定的进程已经被杀掉了 跳过/放弃
如果进程 有 oom_flag_origin, 直接 select 该进程, 并设置 score 为 LONG_MAX
接下来是根据 进程的情况计算 oom_score, 如果 score 比已有的 oc.choosen_points 大, 更新 oc->choosen, oc->choosen_points

oom_unkillable_task 不能杀的这一部分进程

oom_badness 计算进程得分情况
如果 进程不能杀, 得 0 分
如果进程不存在, 得 0 分
如果 oom_score_adj 为 OOM_SCORE_ADJ_MIN 或者 有 MMF_OOM_SKIP 标记, 得 0 分
points 基础为 FILEPAGES + ANNOPAGES + SHMEMPAGES + SWAP_EVENTS + 页框数量 + pmd 数量
然后 再计算一个 oom_score_adj 的一个偏移 (rampages + swappages) / 1000
最终得分为 points + oom_score_adj
 
 
在外面 select_bad_process 的地方对于 oom_score 有调整
以这里的 Test06Unlimited 为例
rss 为 312881
 swapents 为 0
 nr_ptes 为 155953
 nr_pmds 为 307
 oom_adj_score 为 0
 totalpages 为 524158 – 12085 = 512073
 根据计算规则 oom_badness 中 oom_score 计算结果为 (((312881 + 0 + 155953 + 307) + (0 * (512073 / 1000))) * 0.97) = 455066
 然后 外层的 select_bad_process 更新 oom_score 为 455066 * 1000 / 512073 = 888
MM_RSS 为 FILEPAGES + ANNOPAGES + SHMEMPAGES  
输出任务, 寄存器信息
task_struct->comm 可以查看 给定的进程的 执行程序的信息
输出进程相关信息

 
 
输出堆栈信息
printk_stack_address 是输出每一行调用栈信息
__show_regs 中输出各个寄存器相关



__show_regs 输出各个寄存器相关信息

输出内存信息


输出进程的相关信息
只要是可以杀掉的进程 统统列出来, 根据这些信息已经可以大致计算出每一个进程的 得分情况了

输出要杀的进程的信息

完