picard标记DI/DS标签

news/2025/10/14 11:49:24/文章来源:https://www.cnblogs.com/caicai2019/p/19140358

代码示例

java -jar /mnt/zmds01/Product/bioinfo/gitlab/biobase/bin/picard.jar MarkDuplicates \
I="input.sort.bam" \
O="out_marked_dup.bam" \
M="out_dup_mertrics.txt" \
AS=true \
MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 \
TAGGING_POLICY=All \
CREATE_INDEX=true

代码详解

一、命令结构与核心功能

java -jar [Picard工具路径] MarkDuplicates \[输入参数] \[输出参数] \[可选配置参数]
核心功能:识别并标记高通量测序数据中因 PCR 扩增或测序仪重复读取产生的重复序列,为后续分析(如变异检测、定量分析)排除技术重复干扰。

二、参数详解

1. 基础调用部分

  • java -jar
     
    Picard 是 Java 编写的工具,需通过 Java 虚拟机运行,-jar指定执行的 jar 包文件。
  • /mnt/zmds01/Product/bioinfo/gitlab/biobase/bin/picard.jar
     
    Picard 工具的安装路径,包含所有功能模块(此处调用MarkDuplicates模块)。
  • MarkDuplicates
     
    要执行的具体功能模块,用于识别和标记重复序列。

2. 输入输出参数(必填)

  • I="/path/to/input.sort.bam"
    • IInput的缩写,指定输入的 BAM 文件路径。
    • 要求:输入文件必须是按坐标排序的比对文件(文件名中的.sort.bam表明已排序),这是工具准确判断重复序列的前提。
  • O="/path/to/output_marked_dup.bam"
    • OOutput的缩写,指定输出的 BAM 文件路径,包含标记重复后的结果。
    • 特点:输出文件中,重复序列会被添加0x400(十进制 1024)的标记(SAM 格式的第 2 字段),同时保留所有原始序列信息。
  • M="/path/to/dup_metrics.txt"
    • MMetrics的缩写,指定输出的重复率统计文件路径。
    • 内容:包含总 reads 数、重复 reads 数、重复率、文库复杂度等关键指标(示例如下):
      ## METRICS CLASS picard.sam.markduplicates.MarkDuplicatesMetrics
      LIBRARY    UNPAIRED_READS_EXAMINED    READ_PAIRS_EXAMINED    UNMAPPED_READS    ...    ESTIMATED_LIBRARY_SIZE
      None    12345    67890    123    ...    543210

3. 可选配置参数(功能优化)

  • AS=true
    • ASASSUME_SORTED的缩写,设置为true表示 “假设输入文件已按坐标排序”。
    • 作用:跳过工具内部的排序检查步骤,加快运行速度(若输入文件未正确排序,会导致结果错误,需确保sort.bam确实已排序)。
  • MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000
    • 限制工具运行时打开的文件句柄数量(Linux 系统对进程打开文件数有默认限制)。
    • 作用:避免处理大文件时因 “打开文件过多” 导致的报错,1000 是一个安全的高值设置。
  • TAGGING_POLICY=All
    • 控制重复序列标签(DIDS)的添加范围:
      • 默认值为DUPLEXSINGLE,仅对重复序列添加标签;
      • 设置为All时,所有序列(包括非重复的 “代表序列”)都会被添加标签:
        • DI(Duplicate Set Index):重复组唯一 ID(同一原始片段的扩增产物共享相同DI);
        • DS(Duplicate Set Size):该重复组包含的总序列数。
    • 重要性:您的分析脚本依赖DI标签进行重复组分组,此参数确保所有序列都能被正确分组。
  • CREATE_INDEX=true
    • 自动为输出的 BAM 文件生成索引(.bai文件)。
    • 作用:索引文件允许后续工具(如samtools、IGV 基因组浏览器)快速定位特定区域的序列,无需读取整个 BAM 文件,提升分析效率。

三、运行逻辑与输出结果

  1. 运行流程:
     
    ① 读取输入的排序 BAM 文件,解析每条序列的比对位置(染色体、起始坐标)和序列特征;
     
    ② 基于位置和序列一致性判断重复组(来自同一原始 DNA 片段的扩增产物);
     
    ③ 为每个重复组添加DI(组 ID)和DS(组大小)标签,并标记重复序列(0x400标志);
     
    ④ 输出标记后的 BAM 文件、索引文件和重复率统计文件。
  2. 关键输出文件:
    • out_marked_dup.bam:标记重复后的主文件,包含所有序列及DI/DS标签;
    • out_marked_dup.bai:BAM 索引文件(由CREATE_INDEX=true生成);
    • out_dup_mertrics.txt:重复率统计,用于评估数据质量(如重复率过高可能提示 PCR 扩增偏差)。

四、使用注意事项

  1. 输入文件必须按坐标排序(可通过samtools view -H input.bam | grep @HD查看SO:coordinate确认);
  2. TAGGING_POLICY=All是您后续分析(基于DI标签分组)的关键参数,不可省略;
  3. 若运行时报 “文件句柄不足” 错误,可增大MAX_FILE_HANDLES_FOR_READ_ENDS_MAP的值(如 2000);
  4. 结果可通过samtools view output.bam | head查看,重复序列的第 2 字段会包含10240x400的十进制),且所有序列都有DI:i:xxx标签。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/936739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年成都全日制辅导机构优选指南,全日制培训班/集训机构/集训班/全日制一对一培训/文化课集训机构,学习提升新选择

在当今这个知识快速更新、竞争日益激烈的时代,教育培训市场呈现出蓬勃发展的态势,人们对自我提升的渴望愈发强烈。无论是职场人士为了增强自身竞争力,还是成年人追求知识的充实与拓展,都在积极探寻更高效的学习途径…

2025 年灭老鼠公司最新推荐排行榜:欧盟认证技术与环保服务双优品牌权威甄选,含成都 / 四川专业机构口碑指南除老鼠/消灭老鼠/老鼠消杀公司推荐

鼠患已成为城市家居、商业场所及农业生产的重大隐患:家庭中老鼠啃噬设施、传播鼠疫等 30 余种疾病,商业场所因鼠患面临卫生合规风险,农业领域鼠害年均造成超百亿产量损失。然而当前市场乱象丛生:部分机构依赖高毒药…

uni-app x初探

一、概述 uni-app x,是下一代 uni-app,是一个跨平台应用开发引擎。 uni-app x 是一个庞大的工程,它包括uts语言、uvue渲染引擎、uni的组件和API、以及扩展机制。 uts是一门类ts的、跨平台的、新语言。 uts在Android…

第二次实验作业

1 #include<stdio.h>2 #include<stdlib.h>3 #include<time.h>4 5 #define N 56 #define N1 807 #define N2 358 9 int main(){ 10 int cnt; 11 int random_major, random_no; 12 13 …

深度SEO优化的方式有哪些,从技术层面来说

深度SEO优化涉及到一些技术层面的优化策略,以下是一些常见的方式: 1.网站结构优化:优化网站的结构,确保每个页面都可以被搜索引擎爬取和索引。使用合适的HTML标签和语义化的内容结构,使搜索引擎能够更好地理解页面…

2025 年南昌装修公司推荐南昌市宿然装饰工程有限公司,以专业与真诚雕琢理想空间南昌装修设计推荐指南!

在南昌,装修行业正处于蓬勃发展的阶段,市场上各类装修公司琳琅满目。消费者在选择时,往往期望找到一家既能提供创新设计,又能确保装修效果完美落地的公司。在这一背景下,南昌宿然设计机构以其独特的优势,在竞争激…

C# Avalonia 16- Animation- AnimateRadialGradient

C# Avalonia 16- Animation- AnimateRadialGradient用我们自己写的Player C# Avalonia 15- Animation- AnimationPlayerTest AnimateRadialGradient.axaml代码<Window xmlns="https://github.com/avaloniaui&q…

ControlNet——AI图像生成的“精准操控工具”

本文详细介绍了Stable Diffusion最强大的插件ControlNet的原理及典型应用,并介绍其安装及相关模型下载注意事项,最后还结合实例介绍了主要模型的使用方法。1 简介及安装 1.1 简介 ControlNet是由斯坦福大学研究者张吕…

2025 年国内模切加工源头厂家最新推荐排行榜:聚焦 0.1mm 精度与高产能标杆,为下游企业精选优质合作商电子辅料/硅胶/薄膜/胶黏/绝缘模切加工厂家推荐

当前模切加工行业在制造业产业链中地位关键,却面临厂家水平参差不齐的问题。部分厂家精度不足、废料率高、服务不稳定,难以满足下游汽车、医疗、电子等领域日益严苛的需求,让企业选合作商时倍感困扰。为帮助下游企业…

直播协议详解 RTMP、HLS、HTTP-FLV、WebRTC、RTSP 的区别

直播协议详解 RTMP、HLS、HTTP-FLV、WebRTC、RTSP 的区别直播协议详解 RTMP、HLS、HTTP-FLV、WebRTC、RTSP 的区别 本期我们详细讨论直播的相关协议,包括:HTTP-FLV、HLS、RTMP、Web-RTC、RTSP等等。 我们将会详细介绍…

2025 武汉实缴服务机构最新推荐排行榜:知识产权 / 注册资本代办优选清单,深度解析专业服务品质

新修订《公司法》明确要求企业注册资本五年内完成实缴,非货币出资合法化成为趋势,这既为企业发展划定合规红线,也让无形资产转化迎来机遇。武汉作为科创重镇,科技型企业密集,对知识产权实缴、政策适配等专业服务需…

华为开发者空间携手乐知行:轻松实现智能网联小车数据可视化系

本文分享自华为云社区《华为开发者空间携手乐知行:轻松实现智能网联小车数据可视化系》,作者:华为开发者空间小助手。 在AI重塑课堂、算力驱动教学创新的今天,让前沿技术从“概念”落地为“可感知的教学工具”,让…

card滑动效果

<template><view class="member-benefits"><!-- 卡片滑动容器 --><view class="card-slider" :style="{background: currentSliderGradient,transition: background 0.…

2025年成都一对一培训机构优选榜:成都一对一辅导/补习/培训/补习班/辅导机构推荐,成都美博教育脱颖而出

在当今快速发展的时代,人们对自我提升的渴望愈发强烈,教育培训市场也因此迎来了蓬勃发展的黄金时期。无论是想要提升职业技能以适应职场竞争,还是追求个人兴趣爱好的培养,又或是为了满足知识更新的需求,越来越多的…

打印机共享修复,打印机无法共享,打印机修复工具下载及安装教程

软件介绍 下面推荐多款打印机共享修复工具,其实基本都能修复打印机问题,个别软件就是指定修复。能够自动诊断并修复多种常见问题,如无法安装打印机、无法连接到打印机、打印后台处理程序服务遇到问题等。只需下载并…

web中静态资源加载失败的降级处理

在Web应用中,静态资源加载失败的降级处理可通过以下方案实现:备用资源:提供备用的静态资源,当主资源加载失败时,加载备用资源。 默认样式:为关键元素提供默认样式,确保即使某些CSS文件加载失败,页面仍能基本显…

2025年保温隔热挤塑泡沫板推荐哪个厂家好?xps挤塑板/石墨聚苯板公司推荐

做建筑保温工程的朋友,肯定都遇过这种糟心事儿:有的保温隔热挤塑泡沫板厂家,要么供货拖拖拉拉,工地等着材料进场却迟迟不到;要么板子质量参差不齐,有的密度不够一压就碎,有的导热系数不达标影响保温效果;更有甚…

实用指南:消息队列 MQ

实用指南:消息队列 MQpre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &quo…

2025 年最新推荐高性价比实木家具厂家排行榜:涵盖实木床餐边柜/餐桌斗柜/书柜/梳妆台/床头柜/餐椅沙发/休闲椅优质厂家精选

当前实木家具市场繁杂,消费者挑选时常常陷入困境。众多品牌质量参差不齐,贴皮冒充纯实木、环保认证掺假等问题频发,价格跨度大且专业辨别难度高,让消费者难以找到高性价比产品。为解决这些难题,帮助消费者在选购实…

多智能体微服务实战(3/4):Aspire 打造本地 K8s 开发环境

开发6个微服务需要6个终端窗口?.NET Aspire让你一行命令启动所有服务!本文实战演示Aspire的核心价值:自动服务发现、统一配置管理、可视化Dashboard、分布式追踪。从本地开发到生产部署(Azure Container Apps),彻…