卷积层里的多输入多输出通道

  1. 问题
    探索卷积层里的多输入多输出通道
  2. 方法
    通过网络搜索,加以学习,以此来解决问题
    1. 输入通道
      通常来说,我们会用到彩色图片,彩色图像一般是由RGB三个通道组成的。彩色图片一般会有更加丰富的信息。
      但是转换为灰度会丢失信息,所以在图片的表示中通道数应该是3。我们之前都是只用了一个通道,简单图片对于单通道来说还是ok的,但是对于复杂图像就不行了。


      假设图片的大小为200x200,那么图像的张量表示应该是200x200x3,不仅仅是一个简单的矩阵了。
      当输入有了多个通道之后,假设有2个通道,Input中,前面的是通道0,后面是通道1。那么每个通道就会需要一个卷积核,比如针对通道0的卷积核对通道0做卷积,针对通道1的卷积核对通道1做卷积。再按元素相加,得到我们最终的结果。
      ① 核的通道数与输入的通道数一样。如果有多个通道,每一个通道都有一个卷积核,结果是所有通道卷积结果的和。

      我们假设:

      卷积核也会对应的变成三维的矩阵,但是输出是一个单通道,因为不管输入是多少通道,输出是把结果相加之后产生的。也就是说对每一个通道,把它对应的输入和对应的核做卷积,再按元素相加起来,得到输出
    2. 多个输出通道
      无论有多少通道的输入,到目前为止不论有多少输入通道,我们只会得到单输出通道。
      如果我们希望输出是多维的,得到多输出通道该怎么办呢?
      做法是对每一个输出都有一个自己的三维的卷积核,总共设置多个三维的卷积核,每一个卷积核计算出来的结果作为一个通道,把每一个通道一一做运算,再把它们concat起来得到我们的输出。
      相比于之前单输出通道多了一个参数Co。输出通道数,即卷积核的个数是卷积层的另一个超参数。

      输出里面的第i个通道,其实就是完整的输入X与对应第i个核,做多输入的卷积,然后对所有的i做遍历。

      这样就得到了多输出通道的结果。
      那为什么要这么做呢?
      我们可以认为每一个通道识别出来的都是一些特殊的模式,这是输出通道干的事情。

      多输入通道干什么呢?假设我把这6个通道丢给下一层,下一层要把这每个模式识别出来并组合起来,得到一个组合的模式序列。
      当然, 每一层有多个输出通道时至关重要的。在最流行的神经网络架构中,随着神经网络层数的加深,我们常会增加输出通道的维数,通过减少空间分别率以获得更大的通道深度。
      比如说,我们可以先识别猫的胡须,耳朵,再往上走的话,把这些纹理组合起来,在上层的一些卷积层可能就是识别的猫头。
      直观地说,我们可以将每个通道看作是对不同特征的响应。而现实可能更为复杂一些,因为每个通道不是独立学习的,而是为了共同使用而优化的。
      因此,多输出通道并不仅是学习多个单通道的检测器。
    3. 1*1卷积核
      (1,1)的卷积核是一个常用的卷积核,它并不能识别空间信息,它的作用是融合通道。
      因为1x1卷积层每次只识别一个像素,而不查看该像素与周围像素的关系,所以它并不识别空间信息。

      等价于把整个NhxNw的输入拉成一个长为NhNw的向量,也就是说空间信息没有了,然后通道数拉成特征数Ci。将卷积核重新写成CoxCi,等价于输入为NhxNwxCi,权重为CoxCi的全连接层。
    4. 二维卷积层

      模型储存小,计算量不一定小。
  3. 总结

输出通道数是卷积层的超参数;

每个输入通道有独立的二位积核,所有通道结果相加得到一个输出通道结果;

每个输出通道有独立的三维积核。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1142390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 发行版这么多,哪些才算企业级 Linux?

在企业 IT 场景中,Linux 早已不是“极客专属”的操作系统,而是服务器、云计算、数据库、中间件等核心系统的底座。 但当真正落到选型时,很多人会发现一个问题: Linux 发行版这么多,哪些才算“企业级 Linux”?它们之间有什么区别? 严格来说,Linux 本身没有“企业级”…

1月9号:赚钱效应溢出

连板:8个4板,10板一个,后续留意连板冰点。指数有见顶信号,创业板高度打开,情绪高潮。容量核心航发,版块身位高度为4板,银河电子等等。监管,反馈:市场慢慢对监管线脱敏&am…

PDF-Extract-Kit部署教程:AWS云服务部署指南

PDF-Extract-Kit部署教程:AWS云服务部署指南 1. 引言 1.1 技术背景与应用场景 随着数字化办公和学术研究的快速发展,PDF文档中结构化信息的提取需求日益增长。无论是科研论文中的公式、表格,还是企业报告中的图表与文本内容,传…

S32DS调试过程中变量查看方法通俗解释

S32DS调试中变量查看的实战指南:从“断点等待”到“主动监控”你有没有遇到过这种情况?程序跑起来后,某个状态机卡住了,传感器数据不更新,或者外设通信丢帧。你一遍遍地打断点、单步执行,看着变量窗口里一片…

PDF-Extract-Kit实战案例:科研论文参考文献提取系统

PDF-Extract-Kit实战案例:科研论文参考文献提取系统 1. 引言:科研场景下的PDF智能提取需求 在学术研究和论文撰写过程中,参考文献的整理与引用是不可或缺的一环。传统方式下,研究人员需要手动从PDF格式的论文中逐条复制参考文献…

PDF-Extract-Kit部署案例:医疗报告结构化处理全流程

PDF-Extract-Kit部署案例:医疗报告结构化处理全流程 1. 引言 1.1 医疗文档数字化的迫切需求 在现代医疗体系中,大量的临床数据以非结构化的PDF或扫描图像形式存在。这些文档包括检验报告、影像诊断书、病历记录等,其信息难以被电子健康记录…

Keil5安装教程项目应用:基于STM32F103的实际配置

从零搭建STM32开发环境:Keil5安装与STM32F103实战配置全解析 你是不是也曾在第一次打开Keil时,面对一堆弹窗、驱动警告和“Target not created”错误感到无从下手?明明照着教程一步步来,可ST-Link就是识别不了,程序下载…

spring-boot-starter和spring-boot-starter-web的关联

maven的作用是方便jar包的管理,所以每一个依赖都是对应着相应的一个或者一些jar包,从网上看到很多对spring-boot-starter的描述就是“这是Spring Boot的核心启动器,包含了自动配置、日志和YAML。”没看太明白,所参与的项目上也一直…

PDF-Extract-Kit性能测试:处理100页PDF仅需3分钟

PDF-Extract-Kit性能测试:处理100页PDF仅需3分钟 1. 引言:智能PDF提取的工程挑战与PDF-Extract-Kit的诞生 在科研、教育和企业文档管理中,PDF作为最通用的文档格式之一,承载了大量结构化信息——包括文本、表格、数学公式和图像…

人像摄影(梅花 · 雪景 · 古装篇 · 横构图 · 2) 提示词

📸 第六组:雪中拾梅 低角度横景Prompt:A horizontal medium shot from a slightly low angle of a young East Asian woman reaching toward fallen plum blossoms on the snow-covered ground. She wears a soft gray Hanfu, sleeves falling close to…

PCB过孔电流承载解析:完整指南与数据参考

PCB过孔电流承载能力全解析:从原理到实战设计你有没有遇到过这样的情况?一款电源设计反复调试,输出电压总是不稳定;或者某个BGA封装的FPGA在高负载下频繁复位。排查了一圈信号完整性、电容配置、走线阻抗,最后却发现“…

人像摄影(梅花 · 雪景 · 古装篇 · 横构图 · 1) 提示词

📸 第一组:雪后梅园 长廊远景Prompt:A wide horizontal scene of a young East Asian woman with fair skin walking slowly along an ancient corridor beside a plum garden after snowfall. She wears a light gray Hanfu with layered skirts and l…

HY-MT1.5-7B长文档翻译:分块处理与一致性保持

HY-MT1.5-7B长文档翻译:分块处理与一致性保持 1. 引言:腾讯开源的混元翻译大模型 随着全球化进程加速,跨语言信息流通需求激增,高质量、低延迟的机器翻译技术成为AI应用的核心基础设施之一。在此背景下,腾讯推出了混…

TouchGFX UI设计快速理解:图解说明核心组件架构

TouchGFX UI设计快速理解:图解核心组件架构与实战要点从一个“卡顿的界面”说起你有没有遇到过这样的场景?项目快上线了,UI却频频掉帧、触摸响应迟钝,客户皱眉:“这看起来不像个现代设备。”传统嵌入式GUI开发中&#…

Python OOP 设计思想 11:多继承是能力组合

在许多面向对象语言中,多继承长期被视为危险特性,常被贴上“复杂”、“不可维护”的标签。但在 Python 中,多继承并非类型体系的混乱延伸,而是一种以调用语义为核心、受严格规则约束的能力组合机制。理解这一点的前提,…

ST7789V驱动时序调试:常见问题与解决

ST7789V驱动调试实战:从花屏到丝滑显示的全栈解析在嵌入式开发的世界里,一块小小的彩色屏幕,往往能成为产品成败的关键。而当你满怀期待地焊好ST7789V显示屏模块、烧录代码后,却发现——白屏?花屏?颜色错乱…

PDF-Extract-Kit性能对比:CPU vs GPU处理速度测试

PDF-Extract-Kit性能对比:CPU vs GPU处理速度测试 1. 引言:PDF智能提取的算力需求与挑战 在学术研究、工程文档和数字出版领域,PDF文件承载着大量结构化信息,包括文本、公式、表格和图像。传统PDF解析工具往往难以准确识别复杂版…

PDF-Extract-Kit性能测评:不同文件格式处理能力

PDF-Extract-Kit性能测评:不同文件格式处理能力 1. 引言 1.1 技术背景与选型需求 在当前数字化办公和学术研究的背景下,PDF文档已成为信息传递的核心载体。然而,PDF中嵌套的复杂结构——如公式、表格、图文混排等——给内容提取带来了巨大…

Java线程池队列满了怎么办?面试必考点解析!

文章目录Java线程池队列满了怎么办?面试必考点解析!一、线程池的基本原理二、为什么会“队列满了”?1. 高并发场景2. 长期运行的任务3. 队列容量配置不合理三、队列满了怎么办?1. 调整线程池参数(1)增加核心…

2026年我国人工智能产业发展形势展望报告

扫描下载文档详情页: https://www.didaidea.com/wenku/16328.html