宏基因组序列分析工具EukRep

文章:Genome-reconstruction for eukaryotes from complex natural microbial communities | bioRxiv

仓库:patrickwest/EukRep: Classification of Eukaryotic and Prokaryotic sequences from metagenomic datasets (github.com)

推荐使用conda进行安装:

conda create -y -n eukrep-env -c bioconda scikit-learn==0.19.2 eukrep

或者通过pip安装(需预先安装scikit-learn版本0.19.2):

pip install EukRep

示例用法

  • 从fasta文件中识别并输出预测为真核起源的序列:

    EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file>

  • 同时识别并分别从fasta文件中输出真核和原核起源的序列:

    EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file> --prokarya <Prokaryote sequence output file>

获取真核生物bins EukRep设计用于作为更大规模分析流程的一部分。如需根据“从复杂自然微生物群落中重建真核生物基因组”(West等人,待审阅)一文中所述的方法获得高质量的基因预测及对已识别的真核contigs进行分箱,请参阅以下方法部分: Genome-reconstruction for eukaryotes from complex natural microbial communities | bioRxiv

  • 或者

查看提供的示例工作流程(正在进行中): https://github.com/patrickwest/EukRep_Pipeline

调整筛选严格度 可以通过-m参数调整识别真核contig的严格度。以下是严格、平衡和宽松模式下的假阳性率(FPR)和假阴性率(FNR)。默认设置为平衡模式。在0.6.5版本之前,默认设置为宽松模式。

在对模拟新型门类基因组生成的20kb和5kb片段化支架运行EukRep后,获得了如下所示的数据:

20kb

5kb

此处未给出具体的数据内容,但可根据上述描述理解,在不同长度的支架上应用EukRep,可以得到不同筛选严格度下对应的假阳性和假阴性结果。

典型使用流程:官方推荐

patrickwest/EukRep_Pipeline (github.com)

 

EukRep_Pipeline 这是一个结合EukRep从元基因组中分箱真核生物基因组的示例工作流程。其中包含了一个示例bash脚本euk_pipeline.sh,整合了以下所有步骤。

要求:

  • 预先组装完成的shotgun元基因组样本及其每条scaffold覆盖度信息
  • EukRep工具
  • CONCOCT或metabat工具
  • genemark-ES
  • MAKER2
  • BUSCO
  • 可选但推荐:pyenv

使用EukRep分类 在预先组装的shotgun元基因组样本上运行EukRep:

EukRep -i metagenome.fa -o euk_contigs.fa

如果你处理的是高度复杂或片段化的元基因组,建议降低最小contig长度阈值:


EukRep -i metagenome.fa -o euk_contigs.fa --min 1000

自动分箱 此步骤对于分离样本中的多个真核生物基因组至关重要。 为了获得尽可能高质量的基因预测结果,在进行基因预测前必须将基因组分开。 需要每条scaffold的覆盖度信息 使用CONCOCT执行:

concoct --coverage_file euk_contig_cov.txt --composition_file euk_contigs.fa
mkdir clusters
python /path/to/CONCOCT/scripts/extract_fasta_bins.py --output_path ./clusters/ euk_contigs.fa clustering_gt1000.csv

使用metabat执行:

metabat -a euk_contig_cov.txt -i euk_contigs.fa -o bin -t 6

按bin大小过滤 我们发现在此阶段过滤掉小于2.5 Mbp的bin非常有用。这种过滤可以去除大部分假阳性结果,尤其是当使用CONCOCT时,因为CONCOCT会对每一条scaffold进行分箱,往往会产生许多非常小的bin。训练GeneMark-ES

perl gmes_petap.pl --ES -min_contig 10000 --sequence bin_1.fa

-min_contig选项指定了用于训练指定bin基因预测模型的最小contig长度。并非需要该bin中的每个contig都被用于训练,但如果超过阈值的contig过少,训练可能失败。由于许多来自元基因组的bin通常十分碎片化,所以可能需要调整这个选项。

使用训练好的GeneMark-ES模型和MAKER2预测基因 MAKER使用控制文件。至少建议以以下方式修改它们,以便使用RepeatMasker和GeneMark-ES进行基因预测: 在'maker_opts.ctl'文件中:

keep_preds=1
gmhmm=/path/to/output/gmhmm.mod

然后使用6个核心运行MAKER:

maker -g bin_1.fa -c 6 cd *.maker.output fasta_merge -d *_master_datastore_index.log -o bin_1

为了进一步提高基因预测质量,MAKER能够整合来自相关物种参考基因组的同源蛋白质、转录组证据以及其他如AUGUSTUS等的ab initio基因预测器。为了获取高质量的基因预测,通常最好利用所有可用的这些证据来源。

对许多元基因组样本而言,进行ab initio基因预测可能是唯一可选择的方法。运行BUSCO

python3 BUSCO.py -i *.maker.proteins.fasta -l eukaryota_odb9 -o bin_1 -m prot

BUSCO将在你的bin内寻找单拷贝直系同源基因(SCGs),提供一个完整性估计(以及粗略的重复单拷贝基因污染评估)。 -l参数指定了要使用的SCG谱系集。我们通常使用eukaryota_odb9因为它最通用,然而当你对你的bin所属的生物类型有了更清晰的认识后,也可以选择使用更具体的谱系集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/600429.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开启Android学习之旅-3-Android Activity

Android Activity 本文总结《第一行代码 Android》第3版的内容 环境&#xff1a; Android Studio Giraffe | 2022.3.1 Patch 3 Activity 是什么&#xff1f; Activity 简单将就是UI界面&#xff0c;包含两部分 Activity 类 和应用布局文件&#xff0c;如果是 Compose 则另说&…

DS|图(连通与生成树)

题目一&#xff1a;DS图 -- 图的连通分量 题目描述&#xff1a; 输入无向图顶点信息和边信息&#xff0c;创建图的邻接矩阵存储结构&#xff0c;计算图的连通分量个数。 输入要求&#xff1a; 测试次数t 每组测试数据格式如下&#xff1a; 第一行&#xff1a;顶点数 顶点…

【Linux进程】 进程的理解

目录 前言 1. 系统管理 2. 进程 2.1 概念 2.2 进程的调度 2.3 描述进程-PBC 3. 查看进程 4. 通过系统调用获取进程标示符 前言 在计算机科学领域&#xff0c;进程是一种重要的概念&#xff0c;在日常学习中也经常遇到进程这个概念&#xff0c;那么进程到底是什么&#x…

tkinter实现一个简易窗口

tkinter目录 1. 最简易的窗口2. 加了标签、按钮、输入框&#xff0c;并且按钮连接了函数 1. 最简易的窗口 import tkinter as tkwindow tk.Tk()window.title(我的窗口) # 设置窗口名 window.geometry(500x300) # 设置窗口长宽label tk.Label(window, text文字文字文字, bg…

Vue3中使用动态组件

文章目录 使用方式&#xff1a;使用场景&#xff1a; 在 Vue 3 中&#xff0c;动态组件是一种允许在运行时动态切换组件的机制。Vue 3 提供了 元素以及 is 特性来实现动态组件的切换。 使用方式&#xff1a; 1、使用 元素 在模板中使用 元素&#xff0c;通过 is 特性来动态切换…

CSS基础笔记-01CSS概述

文章目录 前言CSS是什么CSS的作用CSS语法添加CSS的方法 前言 CSS是什么&#xff1f;有什么作用&#xff1f;怎么编写CSS&#xff1f;怎样添加CSS&#xff1f;本文对CSS的四个方面作了学习并形成学习笔记。 CSS是什么 CSS &#xff08;Cascading Style Sheets&#xff0c;层叠…

CentOS 多节点一键免密登录

文章目录 一、场景说明二、脚本职责三、参数说明四、操作示例五、注意事项 一、场景说明 本自动化脚本旨在为提高研发、测试、运维快速部署应用环境而编写。 脚本遵循拿来即用的原则快速完成 CentOS 系统各应用环境部署工作。 统一研发、测试、生产环境的部署模式、部署结构、…

解决2023新版Edge浏览器页面加载不出来问题

2023年推出的新版Edge浏览器为用户带来了更好的性能和用户体验。然而&#xff0c;有一些用户反馈称他们在使用新版Edge浏览器时遭遇了页面加载不出来的问题。本篇博客将详细介绍如何解决这个问题&#xff0c;以确保您能够顺畅地使用新版Edge浏览器浏览网页。 1、清除缓存和Coo…

使用 Python 进行贝叶斯优化

一、介绍 贝叶斯优化是一种先进的技术&#xff0c;用于优化评估成本高昂的函数。该策略为全局优化提供了原则性策略&#xff0c;强调探索&#xff08;尝试新领域&#xff09;和开发&#xff08;尝试看起来有前途的领域&#xff09;之间的平衡。 二、什么是贝叶斯优化&#xff1…

Mysql 分割字符串,一行变多行,@rownum,mysql.help_topic

1 前言 朋友最近遇到一个比较棘手的 sql 问题&#xff0c;让我帮忙看看&#xff1a; 他有两张表 testa 和 testb &#xff0c;一个表存的日期&#xff0c;另一个表存字符串例如 2023-11-01,2023-11-02&#xff0c;如何将这两张表关联起来&#xff0c;只查 testa 表的数据&#…

streamlit 入门demo

一、介绍 Streamlit 是一个用于创建数据应用程序的 Python 库&#xff0c;它致力于简化从数据脚本到可部署应用程序的整个过程。通过 Streamlit&#xff0c;你可以使用熟悉的 Python 语言创建交互式的、美观的数据应用&#xff0c;而无需深入了解前端开发。 二、优势和特点 简…

分布式基础概念

分布式基础概念 1 微服务 微服务架构风格&#xff0c;就像是把一个单独的应用程序开发为一套小服务&#xff0c;每个小服务运行在自己的进程中&#xff0c;并使用轻量级机制通信&#xff0c;通常是HTTP API。这些服务围绕业务能力来构建&#xff0c;并通过完全自动化部署机制…

AUTOSAR从入门到精通-漫谈autosar软件架构(七)

目录 前言 原理 AUTOSAR软件开发现状 Autosar分层架构 基础软件层(BSW)

【Path的使用】Node.js中的使用Path模块操作文件路径

&#x1f601; 作者简介&#xff1a;一名大四的学生&#xff0c;致力学习前端开发技术 ⭐️个人主页&#xff1a;夜宵饽饽的主页 ❔ 系列专栏&#xff1a;Node.js &#x1f450;学习格言&#xff1a;成功不是终点&#xff0c;失败也并非末日&#xff0c;最重要的是继续前进的勇…

Jenkins集成部署java项目

文章目录 Jenkins简介安装 Jenkins简介 Jenkins能实时监控集成中存在的错误&#xff0c;提供详细的日志文件和提醒功能&#xff0c;还能用图表的形式形象的展示项目构建的趋势和稳定性。 官网 安装 在官网下载windows版本的Jenkins 但是我点击这里浏览器没有反应&#xff0…

Vue3-38-路由-路由的懒加载

什么是路由的懒加载 一句话概括 &#xff1a; 懒加载&#xff0c;就是在初次用到的时候才执行加载&#xff1b;而非一上来就全部加载完毕。优点 &#xff1a; 可以提高项目的访问效率。因为一上来不用加载所有的资源。建议 &#xff1a; 项目中的所有路由配置都配置为 懒加载…

使用 KubeSphere 与极狐GitLab 打造云原生持续交付系统

极狐GitLab 简介 极狐GitLab 是一个一体化的 DevOps 平台&#xff0c;可以简单理解为 GitLab 在国内的“发行版”。是由极狐(GitLab)公司推出的产品&#xff08;极狐(GitLab)公司是以“中外合资3.0”模式成立的公司&#xff0c;在国内独立运营&#xff0c;为国内用户提供适合本…

test mutation-00-变异测试概览

拓展阅读 test 系统学习-04-test converate 测试覆盖率 jacoco 原理介绍 test 系统学习-05-test jacoco 测试覆盖率与 idea 插件 test 系统学习-06-test jacoco SonarQube Docker learn-29-docker 安装 sonarQube with mysql Ubuntu Sonar 突变测试是什么&#xff1f; …

2024你好!

在刚刚过去的一年里&#xff0c;科技行业犹如璀璨的星辰照亮了全球的进步之路。特别是在人工智能的疆域中&#xff0c;大模型技术犹如破晓的曙光&#xff0c;以其数十亿乃至千亿级别的参数力量&#xff0c;掀起了前所未有的变革浪潮。 2023年&#xff0c;大模型技术无疑成为了人…

谷歌浏览器启用实时字幕功能

在 Chrome 中使用“实时字幕”功能 - Google Chrome帮助 在 Chrome 中使用“实时字幕”功能 从计算机上的 Chrome 浏览器中&#xff0c;您可以使用“实时字幕”功能自动为视频、播客、游戏、直播、视频通话或其他音频媒体生成字幕。音频和字幕均在本地处理&#xff0c;并会保…