Linux-ftrace-双nop机制的实现

Linux 内核调试工具ftrace 之(NOP动态插桩的实现原理)

ftrace 是 Linux 内核中的一种跟踪工具,主要用于性能分析、调试和内核代码的执行跟踪。它通过在内核代码的关键点插入探针(probe)来记录函数调用和执行信息。这对于开发者排查问题、优化性能或者理解内核行为非常有用。

linux中主要支持两种ftrace的实现方式:

  1. _mcount机制,(主要在内核为5.10前版本),可见文章《ftrace之_mcount的实现原理》
  2. NOP指令动态插桩机制(主要在内核为5.10及以后版本)

下面将深入介绍双NOP指令动态插桩机制的实现原理:

NOP指令动态插桩机制的实现

 * Due to -fpatchable-function-entry=2, the compiler has placed two NOPs before* the regular function prologue. For an enabled callsite, ftrace_init_nop() and* ftrace_make_call() have patched those NOPs to:** 	MOV	X9, LR* 	BL	<entry>** ... where <entry> is either ftrace_caller or ftrace_regs_caller.
  • gcc编译内核时加上 -fpatchable-function-entry=2 选项将会在每个支持被插桩的函数最前面插入两条NOP指令。
  • nop本身就是动态插桩机制,当需要追踪该函数时,才会将该函数前面的nop指令替换为MOV X9, LRBL <entry><entry>ftrace_callerftrace_regs_caller)。

NOP入口的分析

1. 下面是实际的编译的驱动函数汇编代码:
0000000000000000 <gps_pcie_tty_close>:0:   d503201f        nop4:   d503201f        nop8:   d503233f        paciaspc:   a9bf7bfd        stp     x29, x30, [sp, #-16]!10:   aa0103e2        mov     x2, x114:   910003fd        mov     x29, sp18:   aa0003e1        mov     x1, x01c:   f941d000        ldr     x0, [x0, #928]20:   94000000        bl      0 <tty_port_close>24:   a8c17bfd        ldp     x29, x30, [sp], #1628:   d50323bf        autiasp2c:   d65f03c0        ret
2. 当该函数需要被追踪,则将nop换成MOV X9, LRBL ftrace_caller(这里以ftrace_caller为例)。
 * Each instrumented function follows the AAPCS, so here x0-x8 and x18-x30 are
live (x18 holds the Shadow Call Stack pointer), and x9-x17 are safe to clobber.
  • 每个支持被追踪的函数应该遵守AAPCS规定。根据 AAPCS 的规定,寄存器可分为调用者保存和被调用者保存两类。调用者保存的寄存器需要在调用函数前由调用者保存其值,而被调用者保存的寄存器则由被调用的函数负责保存和恢复。寄存器 x0x8 以及 x18x30 被视为活跃寄存器(其中 x18 保存影子调用栈指针),而寄存器 x9x17 则可安全地被覆盖。
  • 因此x9寄存器是可以直接用的,所以可以用来存调用者的返回地址即将LR_A存入到x9(可以发现这里和_mcount的处理方式不同,不用再先保存寄存器了)。
  • 接下来就进入ftrace_callerftrace_regs_caller
    此时栈分配如下图:
    在这里插入图片描述
3. ftrace_callerftrace_regs_caller中的任务
YM_CODE_START(ftrace_regs_caller)
#ifdef BTI_CBTI_C
#endifftrace_regs_entry	1b	ftrace_common
SYM_CODE_END(ftrace_regs_caller)SYM_CODE_START(ftrace_caller)
#ifdef BTI_CBTI_C
#endifftrace_regs_entry	0b	ftrace_common
SYM_CODE_END(ftrace_caller)

ftrace_callerftrace_regs_caller都会跳转至ftrace_regs_entry,然后全部跳转至b ftrace_common(b跳转指令不会将返回地址存到lr寄存器中)。接下来分析一下ftrace_regs_entryftrace_common

4. ftrace_regs_entry
    .macro  ftrace_regs_entry, allregs=0/* Make room for pt_regs, plus a callee frame */sub	sp, sp, #(S_FRAME_SIZE + 16)/* Save function arguments (and x9 for simplicity) */stp	x0, x1, [sp, #S_X0]stp	x2, x3, [sp, #S_X2]stp	x4, x5, [sp, #S_X4]stp	x6, x7, [sp, #S_X6]stp	x8, x9, [sp, #S_X8]/* Optionally save the callee-saved registers, always save the FP */.if \allregs == 1//这里是allregs == 1时额外要保存的现场stp	x10, x11, [sp, #S_X10]stp	x12, x13, [sp, #S_X12]stp	x14, x15, [sp, #S_X14]stp	x16, x17, [sp, #S_X16]stp	x18, x19, [sp, #S_X18]stp	x20, x21, [sp, #S_X20]stp	x22, x23, [sp, #S_X22]stp	x24, x25, [sp, #S_X24]stp	x26, x27, [sp, #S_X26]stp	x28, x29, [sp, #S_X28].else//这里是allregs == 0时额外要保存的现场str	x29, [sp, #S_FP].endif/* Save the callsite's SP and LR */add	x10, sp, #(S_FRAME_SIZE + 16)stp	x9, x10, [sp, #S_LR]/* Save the PC after the ftrace callsite */str	x30, [sp, #S_PC]/* Create a frame record for the callsite above pt_regs */stp	x29, x9, [sp, #S_FRAME_SIZE]add	x29, sp, #S_FRAME_SIZE/* Create our frame record within pt_regs. */stp	x29, x30, [sp, #S_STACKFRAME]add	x29, sp, #S_STACKFRAME.endm
  • 在上面的现场保存后函数栈的分布如下图:

在这里插入图片描述

5. 跳转到ftrace_common
SYM_CODE_START(ftrace_common)sub	x0, x30, #AARCH64_INSN_SIZE	// ip (callsite's BL insn)mov	x1, x9				// parent_ip (callsite's LR)ldr_l	x2, function_trace_op		// opmov	x3, sp				// regsSYM_INNER_LABEL(ftrace_call, SYM_L_GLOBAL)bl	ftrace_stub#ifdef CONFIG_FUNCTION_GRAPH_TRACER
SYM_INNER_LABEL(ftrace_graph_call, SYM_L_GLOBAL) // ftrace_graph_caller();nop				// If enabled, this will be replaced// "b ftrace_graph_caller"
#endif/** At the callsite x0-x8 and x19-x30 were live. Any C code will have preserved* x19-x29 per the AAPCS, and we created frame records upon entry, so we need* to restore x0-x8, x29, and x30.*/
ftrace_common_return:/* Restore function arguments */ldp	x0, x1, [sp]ldp	x2, x3, [sp, #S_X2]ldp	x4, x5, [sp, #S_X4]ldp	x6, x7, [sp, #S_X6]ldr	x8, [sp, #S_X8]/* Restore the callsite's FP, LR, PC */ldr	x29, [sp, #S_FP]ldr	x30, [sp, #S_LR]ldr	x9, [sp, #S_PC]/* Restore the callsite's SP */add	sp, sp, #S_FRAME_SIZE + 16ret	x9
SYM_CODE_END(ftrace_common)
  • ftrace_common分为两段:跳转到对应的trace回调函数前、从跳转的trace回调函数返回后。
  1. 跳转到对应的trace回调函数前:
sub	x0, x30, #AARCH64_INSN_SIZE	// ip (callsite's BL insn)
mov	x1, x9				// parent_ip (callsite's LR)
ldr_l	x2, function_trace_op		// op
mov	x3, sp				// regs

主要是准备好给trace回调函数的参数。
参数类型大致为下面

(unsigned long ip, unsigned long parent_ip, struct ftrace_ops *op, struct pt_regs *regs)
  1. 后面就是进入trace的回调函数中:
    • 将传入的信息保存到trace的缓冲区中(栈帧结构体中struct pt_regs)。
    • 恢复追踪函数B的现场,x0~x8,x19~x30。(B的环境这样就没有被破坏)
    • BL 到 函数B继续执行(此时x30lr寄存器值为trace回调函数地址)。
    • 保存x0到对应的栈帧结构体中struct pt_regs的x0成员变量(函数返回值)。
    • 返回到ftrace_commonftrace_common_return继续执行。

3.ftrace_common_return
* 这里的任务是恢复现场(通过保存的栈帧结构体struct pt_regs)。
* 通过ret指令直接跳转到函数A。

  1. 说明:
    • 为什么要组织FP_N、FP_B的帧记录(即存放上一个函数的FP、LR),目的就是给具体的trace回调函数函数调用的信息,使trace回调函数能够递归函数调用关系。
    • 在用栈进行参数传递时,被调用者都是用调用者的FP指针进行访问的。

nop的跳转流程

nop的跳转流程和_mcount差不多,差别就是栈的设置以及保存,恢复,以及进入bl ftrace的时机不同。

在这里插入图片描述

具体的ftrace操作

见文章《Linux-ftrace(内核调试工具)》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/71185.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt互斥锁(QMutex)的使用、QMutexLocker的使用

Qt互斥锁【QMutex】的使用、QMutexLocker的使用 基于读写锁(QReadWriteLock)的线程同步Chapter1 Qt互斥锁(QMutex)的使用、QMutexLocker的使用一、QMutexLocker和QMutex实现示例图二、QMutex和QMutexLocker的关系&#xff08;个人理解&#xff09;三、QMutex使用和QMutexLocker…

【无标题】Ubuntu22.04编译视觉十四讲slambook2 ch4时fmt库的报错

Ubuntu22.04编译视觉十四讲slambook2 ch4时fmt库的报错 cmake ..顺利&#xff0c;make后出现如下报错&#xff1a; in function std::make_unsigned<int>::type fmt::v8::detail::to_unsigned<int>(int): trajectoryError.cpp:(.text._ZN3fmt2v86detail11to_unsi…

SpringBoot ——简单开发流程实战

本文使用SpringBoot进行电商系统商品数据增删改查的简单开发流程。 本文目录 一、创建Spring Boot项目二、配置数据库连接三、创建实体类四、创建Repository接口五、创建Service层六、创建Controller层七、测试 一、创建Spring Boot项目 可以通过https://start.spring.io/或者…

fastadmin 后台商品sku(vue)

先上个效果图 首先先引入vue define([backend], function (Backend) {require.config({paths: {vue: /assets/jeekshopskugoods/libs/vue.min,skuimg: /assets/jeekshopskugoods/js/skuimg,skugoods: /assets/jeekshopskugoods/js/skugoods,layui: /assets/LayuiSpzj/layui/la…

LeetCode 718 - 最长重复子数组

LeetCode 718 - 最长重复子数组 是一个典型的数组和字符串问题&#xff0c;适合考察动态规划、滑动窗口和二分查找等多种编程能力。掌握其多种解法及变体能够有效提高处理字符串和数组算法的能力。 题目描述 输入: 两个整数数组 nums1 和 nums2。输出: 两个数组中存在的最长的…

LeetCode 0132.分割回文串 II:动态规划

【LetMeFly】132.分割回文串 II&#xff1a;动态规划 力扣题目链接&#xff1a;https://leetcode.cn/problems/palindrome-partitioning-ii/ 给你一个字符串 s&#xff0c;请你将 s 分割成一些子串&#xff0c;使每个子串都是回文串。 返回符合要求的 最少分割次数 。 示例 …

iOS 实现UIButton自动化点击埋点

思路&#xff1a;我们HOOK UIControl的 addtarget:action:forControlEvents方法&#xff0c;交换UIControl的 addtarget:action:forControlEvents 方法的实现&#xff0c; 在交换的方法中添加原来响应的同时&#xff0c;再添加一个埋点响应&#xff0c;该响应方法实现了点击埋点…

C++蓝桥杯基础篇(六)

片头 嗨~小伙伴们&#xff0c;大家好&#xff01;今天我们来一起学习蓝桥杯基础篇&#xff08;六&#xff09;&#xff0c;练习相关的数组习题&#xff0c;准备好了吗&#xff1f;咱们开始咯&#xff01; 第1题 数组的左方区域 这道题&#xff0c;实质上是找规律&#xff0c;…

git -学习笔记

目录 基本操作语法 设置用户和邮箱 版本回退 工作区和暂存区 撤销修改 删除与恢复 一工作区删除了&#xff0c;但是暂存区没删除 二工作区误删了&#xff0c;暂存区还有 github-Git 连接 报错解决-push远程仓库被拒绝 远程库 分支 分支冲突 储藏分支 回到当前分…

Windows本地Docker+Open-WebUI部署DeepSeek

最近想在自己的电脑本地部署一下DeepSeek试试&#xff0c;由于不希望污染电脑的Windows环境&#xff0c;所以在wsl中安装了ollama&#xff0c;使用ollama拉取DeepSeek模型。然后在Windows中安装了Docker Desktop&#xff0c;在Docker中部署了Open-WebUI&#xff0c;最后再在Ope…

力扣785. 判断二分图

力扣785. 判断二分图 题目 题目解析及思路 题目要求将所有节点分成两部分&#xff0c;每条边的两个端点都必须在不同集合中 二分图&#xff1a;BFS/DFS/并查集 因为图不一定联通&#xff0c;所以枚举所有点都做bfs(如果没联通的话) 代码 class Solution { public:bool is…

springboot之集成Elasticsearch

目录 二、Elasticsearch 是什么&#xff1f;三、Elasticsearch 安装四、Springboot 集成 Elasticsearch 的方式五、创建项目集成 Elasticsearch 2.创建 Spring Initializr 项目 es &#xff08;3&#xff09;.新建实体类 User&#xff08;4&#xff09;.新建 dao 接口类 UserR…

[Lc滑动窗口_1] 长度最小的数组 | 无重复字符的最长子串 | 最大连续1的个数 III | 将 x 减到 0 的最小操作数

目录 1. 长度最小的字数组 题解 代码 ⭕2.无重复字符的最长子串 题解 代码 3.最大连续1的个数 III 题解 代码 4.将 x 减到 0 的最小操作数 题解 代码 1. 长度最小的字数组 题目链接&#xff1a;209.长度最小的字数组 题目分析: 给定一个含有 n 个 正整数 的数组…

数据集笔记:新加坡 地铁(MRT)和轻轨(LRT)票价

数据连接 data.gov.sg 2024 年 12 月 28 日起生效的新加坡地铁票价 该数据集包含 MRT 和 LRT 票价的信息&#xff0c;包括&#xff1a; 票价类型&#xff08;Fare Type&#xff09;&#xff1a;成人票、学生票、老年人票、残障人士票等。适用时间&#xff08;Applicable Tim…

湘潭大学计算机复试详细攻略(调剂)

一&#xff0c;写在前面的话 ① 首先&#xff0c;能完成考试初试来到这里的都是勇士。不管结果如何&#xff0c;不管成绩如何。我都在这里真心的祝福你以后一帆风顺。 ② 目前学历贬值严重&#xff0c;如果是成绩不理想的话&#xff0c;我建议能工作就去工作&#xff0c;工作不…

【前端基础】Day 3 CSS-2

目录 1. Emmet语法 1.1 快速生成HTML结构语法 1.2 快速生成CSS样式语法 2. CSS的复合选择器 2.1 后代选择器 2.2 子选择器 2.3 并集选择器 2.4 伪类选择器 2.4.1 链接伪类选择器 2.4.2 focus伪类选择器 2.5 复合选择器总结 3. CSS的元素显示模式 3.1 什么是元素显示…

不同数据类型在数据库和编程语言之间的对应关系表

不同数据类型在数据库和编程语言之间的对应关系表 MySql 与 C# MySqlC#varcharstringbigintlongbigint unsignedulongintintint unsigneduintsmallintshortsmallint unsignedushortVARCHAR(36)GuidsmalldatetimeDateTimedateDateTimedatetimeDateTimetimestampDateTimefloatf…

RabbitMQ操作实战

1.RabbitMQ安装 RabbitMQ Windows 安装、配置、使用 - 小白教程-腾讯云开发者社区-腾讯云下载erlang&#xff1a;http://www.erlang.org/downloads/https://cloud.tencent.com/developer/article/2192340 Windows 10安装RabbitMQ及延时消息插件rabbitmq_delayed_message_exch…

DeepSeek教unity------UI元素长按响应

主要功能说明&#xff1a; ​长按检测&#xff1a;通过记录指针按下的时间&#xff0c;判断是否达到 longClickTime&#xff0c;从而触发长按事件。​状态管理&#xff1a;使用 StateEnum 枚举管理点击项的当前状态&#xff08;未按下、按下等待长按、长按已触发&#xff09;。…

【北京迅为】itop-3568 开发板openharmony鸿蒙烧写及测试-第2章OpenHarmony v3.2-Beta4版本测试

瑞芯微RK3568芯片是一款定位中高端的通用型SOC&#xff0c;采用22nm制程工艺&#xff0c;搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码&#xff0c;支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU&#xff0c;可用于轻量级人工…