pixel_avg2_w20_neon x264像素宽度为20的均值计算

一 C语言实现

static inline void pixel_avg2_w20_altivec(uint8_t *dst, intptr_t i_dst,

uint8_t *src1, intptr_t i_src1,

uint8_t *src2, int i_height)

{

    pixel_avg2_w16_altivec(dst, idst, src1, i_src1, src2, i_height); //前面16列

    pixel_avg2_w4_altivec(dst + 16, i_dst, src1 + 16, i_src1, src2 + 16, i_height); //后面4列

}  

static inline void pixel_avg2_w16_altivec(uint8_t *dst, intptr_t i_dst,

uint8_t *src1, intptr_t i_src1, 

uint8_t *src2, int i_height)

{

    vec_u8_t src1v, src2v;

    for (int y = 0; y < i_height; y++)

    {

        src1v = vec_vsx_ld(0, src1);

        src2v = vec_vsx_ld(0, src2);

        src1v = vec_avg(src1v, srcv2);

        vec_st(src1v, 0, dst);

        dst += i_dst;

        src1 += i_src1;

        src2 += i_src1; 

    }

}

static inline void pixel_avg2_w4_altivec(uint8_t *dst, intptr_t i_dst,

uint8_t *src1, intptr_t i_src1,

uint8_t *src2, int i_height)

{

    for (int y = 0; y < i_height; y++)

    {

        for (int x = 0; x < 4; x++)

            dst[x] = (src1[x] + src2[x] + 1) >> 1;

        dst += i_dst;

        src1 += i_src1;

        src2 += i_src1;

     }

}

二 汇编实现

function pixel_avg2_w20_neon

    ldr ip, [sp, #4]

    push {lr}

    sub r1, r1, #16

    ldr lr, [sp, #4]

i_height

src2

sp开始的位置,sp + 4就是i_height

push {lr}

lr寄存器在此,sp + 4 就是 src2

function pixel_avg2_w20_neon

    ldr         ip,  [sp, #4] //取参数 height 到 ip

    push        {lr} //push lr到栈上,sp寄存器,也减小了 - 4

    sub         r1,  r1,  #16 //r1 = r1 - 16

    ldr         lr,  [sp, #4] //src2 载入到 lr寄存器 

avg2_w20_loop:

    subs        ip,  ip,  #2 //ip = ip - 2

    vld1.64     {d0-d2},  [r2], r3 //先从r2(src1)处加载 24字节   d0 d1 d2

    vld1.64     {d4-d6},  [lr], r3 //先从lr(dst)处加载 24字节   d4 d5 d6

    vrhadd.u8   q0,  q0,  q2  //q0 = (q0 + q2 + 1) >> 1  这里 q0 = d0 d1  q2 = d4 d4

    //因此上面这句话的意思是, d0 = d0 + d4 , d1 = d1 + d5  这里计算了128也就是16字节

    vrhadd.u8   d2,  d2,  d6  //d2 = (d2 + d6 + 1) >> 1

    //上面这句话,是末尾还有8个字节的计算。 d2 = d2 + d6

    vld1.64     {d4-d6},  [r2], r3 //载入数据 d4 d5 d6 再次读入数据

    vld1.64     {d16-d18},[lr], r3 //载入数据 d16 d17 d18 再次读入数据

    vrhadd.u8   q2,  q2,  q8 //q2 = (q2 + q8 + 1) >> 1

    //和上面操作类似, q2 = d4 d5, q8 = d16 d17 16个字节相加

    vst1.64     {d0-d1},  [r0,:128]! //d0 d1 -> 存储到 r0, 128bits  存储回去128bits

    vrhadd.u8   d6,  d6,  d18 // d6 = (d6 + d18 + 1) >> 1 剩余的8字节相加 

    vst1.32     {d2[0]},  [r0,:32], r1 //vst1.32 {d2[0]}, [r0,:32], r1 指令表示将寄存器  存储回去

    //d2 中的数据的低 32 位存储到内存地址 [r0 + r1] 处。这里的 r0 是存储地址的基址,r1 是偏移量,表示存储地址的偏移量

    //vst1.32 {d2[1]}, [r0,:32], r1 的意思是将寄存器 d2 中的数据的高 32 位存储到内存地址 

    // [r0 + r1] 处。这里的 r0 是存储地址的基址,r1 是偏移量,表示存储地址的偏移量。

    vst1.64     {d4-d5},  [r0,:128]! //d4 d5 ->存储到 r0 刚才后面一组的计算结果 d4 d5存储回去

    vst1.32     {d6[0]},  [r0,:32], r1 //d6[0] 低 32位 存储到 r0的位置 最后计算的结果d6存储回去 

    //以上一次计算了2行的数据,所以 ip = ip - 2,每次减少两行,再循环

    bgt         avg2_w20_loop

    pop         {pc} //弹出 lr到pc上。

endfunc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/635648.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2种数控棋

目录 数控棋1 数控棋2 数控棋1 棋盘&#xff1a; 初始局面&#xff1a; 规则&#xff1a; 规则&#xff1a;双方轮流走棋&#xff0c;可走横格、竖格、可横竖转弯&#xff0c;不可走斜格。每一步均须按棋所在格的数字走步数&#xff0c;不可多不可少。 先无法走棋的一方为…

Java多线程并发篇----第二十五篇

系列文章目录 文章目录 系列文章目录前言一、如何在 Windows 和 Linux 上查找哪个线程使用的CPU 时间最长?二、什么是原子操作?在 Java Concurrency API 中有哪些原子类(atomic classes)?三、Java Concurrency API 中的 Lock 接口(Lockinterface)是什么?对比同步它有什么优…

【机组】算术逻辑单元带进位运算实验的解密与实战

​&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;《机组 | 模块单元实验》⏰诗赋清音&#xff1a;云生高巅梦远游&#xff0c; 星光点缀碧海愁。 山川深邃情难晤&#xff0c; 剑气凌云志自修。 ​ 目录 &#x1f33a;一、 实验目…

C语言第三弹---数据类型和变量

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】 数据类型和变量 1、数据类型介绍1.1、整型1.2、浮点型1.3、字符型1.4、布尔类型1.5、各种数据类型的长度1.5.1、sizeof操作符1.5.2、数据类型的长度1.5.3、sizeo…

win系统环境搭建(十二)——Windows系统下使用docker安装redis

windows环境搭建专栏&#x1f517;点击跳转 win系统环境搭建&#xff08;十二&#xff09;——Windows系统下使用docker安装redis 文章目录 win系统环境搭建&#xff08;十二&#xff09;——Windows系统下使用docker安装redis1.创建文件夹2.docker-compose.yaml配置文件3.red…

vulnhub通关-1 DC-1(含靶场资源)

一、环境搭建 1.环境描述 描述 描述&#xff1a; DC-1 is a purposely built vulnerable lab for the purpose of gaining experience in the world of penetration testing. Dc-1是一个专门构建的易受攻击的实验室&#xff0c;目的是获得渗透测试领域的经验。 It was design…

读懂比特币—bitcoin代码分析(一)

最近美国 SEC 通过了比特币的 ETF申请&#xff0c;比特币究竟是个什么东西&#xff0c;从技术上来说&#xff0c;bitcoin 是一个点对点的电子现金系统&#xff0c;它可以实现分布式的记账&#xff0c;不依赖中心化的账务系统&#xff08;比如银行&#xff0c;支付宝&#xff09…

ValueError: Unable to read workbook: could not read strings from data.xlsx解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

免费的网站站群软件,批量管理不同网站程序

在网站运营的过程中&#xff0c;站群软件成为提高效率、管理多个网站的得力助手。本文将专心分享三款卓越的站群软件&#xff0c;其中特别推荐147SEO软件&#xff0c;它不仅能够批量管理网站&#xff0c;还能自动更新原创文章&#xff0c;并主动推送各大搜索引擎。不论您运营何…

音频筑基:时延、帧长选取的考量

音频筑基&#xff1a;时延、帧长选取的考量 帧长与时延的关系帧长变化的影响参考资料 音频算法中&#xff0c;时延和音频帧长的选择通常是个需要平衡的参数&#xff0c;这里分析下背后的考量因素。 帧长与时延的关系 一般来说&#xff0c;帧长是音频算法端到端时延的子集&…

Python操作Excel基础

一、使用Python对Excel读写数据 1.模块、包、库概念 Module&#xff08;模块&#xff09;&#xff1a;扩展名为.py的文件就可以称作为模块Package&#xff08;包&#xff09;&#xff1a;在模块只上的概念&#xff0c;为了方便管理.py模块文件进行打包。包目录下第一个文件必…

爬虫爬取数据遇到302,301重定向如何获取重定向后的地址(完美解决)

当用java或者python爬取目标网站的时候&#xff0c;浏览器可以正确重定向&#xff0c;而用编程爬取始终是code:200 只需要将请求头修改成如下&#xff0c;可以根据需要进行更改 Map<String, String> headers Map.of("Accept", "text/html,application/xh…

【征服Redis10】一文理解redis为什么这么快

Redis之所以一统分布式缓存的江湖&#xff0c;其中一大优势就是快&#xff0c;到底有多快呢&#xff1f;官方测试数据表明每秒可以处理13万次set或者lpush请求&#xff0c;执行lua调用可以达到12万次之多。一般来说&#xff0c;我们的Java服务&#xff0c;单台服务qps到达1000就…

ECharts实现简单饼图和柱状图

1.饼图 前端使用vue&#xff0c;后端使用SpringBoot <template><div><div class"card" style"padding: 15px">数据可视化分析&#xff1a;图书类型销量</div><div style"display: flex; margin: 10px 0"><di…

银行是地球村最大“车主”

有网友调侃说中国的银行已经成了地球村里最大的“房东”&#xff0c;这话的可信度高。可是&#xff0c;中国的银行还渐渐的在成为地球村里最大的“车主”。此言并非耸人听闻&#xff0c;“80多家4s店被查封 银行连夜拖车 网络炸锅”这新闻可佐证。 截图&#xff1a;来源今日国内…

Android分区挂载原理介绍(上)

一、 device-mapper基本原理介绍 1.1 dm工作原理 1.2 dm实现动态卷(逻辑分区)功能介绍(dm-linear) 1.3 dm 实现完整性校验功能介绍(dm-verity) 1.4 元数据加密(default-key) 1.5 dm实现快照功能介绍(snapshot,snapshot-origin,dm-snapshot-…

根据IP查找城市 - 华为OD统一考试

OD统一考试 题解&#xff1a; Java / Python / C 题目描述 某业务需要根据终端的IP地址获取该终端归属的城市&#xff0c;可以根据公开的IP地址池信息查询归属城市。 地址池格式如下&#xff1a; 城市名起始IP&#xff0c;结束IP 起始和结束地址按照英文逗号分隔&#xff0…

python字母异位词分组

给你一个字符串数组&#xff0c;请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", "tea", "tan", "ate", "nat", &…

非线性最小二乘问题的数值方法 —— 狗腿法 Powell‘s Dog Leg Method (I - 原理与算法)

Title: 非线性最小二乘问题的数值方法 —— 狗腿法 Powell’s Dog Leg Method (I - 原理与算法) 文章目录 I. 前言II. 线搜索类型和信赖域类型1. 线搜索类型 —— 最速下降法2. 信赖域类型3. 柯西点 III. 狗腿法的原理1. 狗腿法的构建2. 狗腿法的优化说明3. 狗腿法的插值权重 I…

Java 全栈知识点问题汇总(上)

Java 全栈知识点问题汇总&#xff08;上&#xff09; 1 Java 基础 1.1 语法基础 面向对象特性&#xff1f;a a b 与 a b 的区别3*0.1 0.3 将会返回什么? true 还是 false?能在 Switch 中使用 String 吗?对equals()和hashCode()的理解?final、finalize 和 finally 的不同…