SQL-leetcode—3475. DNA 模式识别 - 详解

news/2025/11/24 20:21:29/文章来源:https://www.cnblogs.com/tlnshuju/p/19265667

SQL-leetcode—3475. DNA 模式识别 - 详解

2025-11-24 20:19  tlnshuju  阅读(0)  评论(0)    收藏  举报

3475. DNA 模式识别

表:Samples

±---------------±--------+
| Column Name | Type |
±---------------±--------+
| sample_id | int |
| dna_sequence | varchar |
| species | varchar |
±---------------±--------+
sample_id 是这张表的唯一主键。
每一行包含一个 DNA 序列以一个字符(A,T,G,C)组成的字符串表示以及它所采集自的物种。
生物学家正在研究 DNA 序列中的基本模式。编写一个解决方案以识别具有以下模式的 sample_id:

以 ATG 开头 的序列(一个常见的 起始密码子)
以 TAA,TAG 或 TGA 结尾 的序列(终止密码子)
包含基序 ATAT 的序列(一个简单重复模式)
有 至少 3 个连续 G 的序列(如 GGG 或 GGGG)
返回结果表以 sample_id 升序 排序。

结果格式如下所示。

示例:

输入:

Samples 表:

±----------±-----------------±----------+
| sample_id | dna_sequence | species |
±----------±-----------------±----------+
| 1 | ATGCTAGCTAGCTAA | Human |
| 2 | GGGTCAATCATC | Human |
| 3 | ATATATCGTAGCTA | Human |
| 4 | ATGGGGTCATCATAA | Mouse |
| 5 | TCAGTCAGTCAG | Mouse |
| 6 | ATATCGCGCTAG | Zebrafish |
| 7 | CGTATGCGTCGTA | Zebrafish |
±----------±-----------------±----------+
输出:

±----------±-----------------±------------±------------±-----------±-----------±-----------+
| sample_id | dna_sequence | species | has_start | has_stop | has_atat | has_ggg |
±----------±-----------------±------------±------------±-----------±-----------±-----------+
| 1 | ATGCTAGCTAGCTAA | Human | 1 | 1 | 0 | 0 |
| 2 | GGGTCAATCATC | Human | 0 | 0 | 0 | 1 |
| 3 | ATATATCGTAGCTA | Human | 0 | 0 | 1 | 0 |
| 4 | ATGGGGTCATCATAA | Mouse | 1 | 1 | 0 | 1 |
| 5 | TCAGTCAGTCAG | Mouse | 0 | 0 | 0 | 0 |
| 6 | ATATCGCGCTAG | Zebrafish | 0 | 1 | 1 | 0 |
| 7 | CGTATGCGTCGTA | Zebrafish | 0 | 0 | 0 | 0 |
±----------±-----------------±------------±------------±-----------±-----------±-----------+
解释:

样本 1(ATGCTAGCTAGCTAA):
以 ATG 开头(has_start = 1)
以 TAA 结尾(has_stop = 1)
不囊括 ATAT(has_atat = 0)
不包含至少 3 个连续 ‘G’(has_ggg = 0)
样本 2(GGGTCAATCATC):
不以 ATG 开头(has_start = 0)
不以 TAA,TAG 或 TGA 结尾(has_stop = 0)
不包含 ATAT(has_atat = 0)
包含 GGG(has_ggg = 1)
样本 3(ATATATCGTAGCTA):
不以 ATG 开头(has_start = 0)
不以 TAA,TAG 或 TGA 结尾(has_stop = 0)
涵盖 ATAT(has_atat = 1)
不包括至少 3 个连续 ‘G’(has_ggg = 0)
样本 4(ATGGGGTCATCATAA):
以 ATG 开头(has_start = 1)
以 TAA 结尾(has_stop = 1)
不包含 ATAT(has_atat = 0)
包含 GGGG(has_ggg = 1)
样本 5(TCAGTCAGTCAG):
不匹配任何模式(所有字段 = 0)
样本 6(ATATCGCGCTAG):
不以 ATG 开头(has_start = 0)
以 TAG 结尾(has_stop = 1)
包含 ATAT(has_atat = 1)
不包含至少 3 个连续 ‘G’(has_ggg = 0)
样本 7(CGTATGCGTCGTA):
不以 ATG 开头(has_start = 0)
不以 TAA,TAG 或 TGA 结尾(has_stop = 0)
不包含 ATAT(has_atat = 0)
不包括至少 3 个连续 ‘G’(has_ggg = 0)
注意:

结果以 sample_id 升序排序
对于每个模式,1 表示该模式存在,0 表示不存在

题解

分析需求中的 4 个判断条件

  • has_start:dna_sequence 以 ATG 开头 → 符合为 1,否则为 0。
  • has_stop:dna_sequence 以 TAA、TAG 或 TGA 结尾 → 符合为 1,否则为 0。
  • has_atat:dna_sequence 包含子串 ATAT → 符合为 1,否则为 0。
  • has_ggg:dna_sequence 包含至少 3 个连续的 G(即 GGG 或更多,如 GGGG)→ 符合为 1,否则为 0。

方法一

SELECTsample_id,dna_sequence,species,-- 判断是否以 ATG 开头CASE WHEN dna_sequence LIKE 'ATG%' THEN 1 ELSE 0 END AS has_start,-- 判断是否以 TAA、TAG 或 TGA 结尾CASEWHEN dna_sequence LIKE '%TAA'OR dna_sequence LIKE '%TAG'OR dna_sequence LIKE '%TGA'THEN 1 ELSE 0END AS has_stop,-- 判断是否包含 ATAT 子串CASE WHEN dna_sequence LIKE '%ATAT%' THEN 1 ELSE 0 END AS has_atat,-- 判断是否包含至少 3 个连续的 G(GGG 及以上)CASE WHEN dna_sequence LIKE '%GGG%' THEN 1 ELSE 0 END AS has_ggg
FROM Samples
ORDER BY sample_id ASC; -- 按 sample_id 升序排序

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/975261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「张张讲AI」AI资讯公众号:联动深圳人才集团,讲师输出资讯+授课,助力AI落地

张张讲AI:联动深圳人才集团,助力AI落地在人工智能飞速发展的时代,如何让前沿的AI技术真正落地,为企业和个人发展赋能,成为了众多从业者关注的焦点。张张讲AI作为一家以顶尖讲师IP驱动的AI应用实战专家,在这一领域…

使用frp实现内网穿透

frp实现内网穿透 前置条件:需要一台有公网IP的云服务器这里使用debian系统: 安装与使用 下载frp包 进入到/usr/local目录: cd /usr/local下载frp wget https://github.com/fatedier/frp/releases/download/v0.65.0/…

2025年11月GEO优化公司推荐权威榜单:十大品牌核心价值与解决方案解析

行业格局分析 根据中国信息通信研究院发布的2024年数字营销行业发展报告,全球GEO优化服务市场规模达到85亿美元,年增长率稳定在18%左右。该报告显示,随着生成式人工智能技术的快速发展,企业对专业GEO优化服务的需求…

2025年11月GEO公司推荐选择指南:专业分析维度助力企业精准决策

行业格局分析 根据中国信息通信研究院发布的2024年数字营销行业发展报告,全球GEO优化服务市场规模预计达到285亿美元,年增长率保持在18.5%以上。该报告指出,随着生成式AI技术的普及,企业对于跨平台品牌优化需求呈现…

2025年11月GEO服务商推荐评测报告:从稳定性到AI能力解决方案剖析

行业格局分析 根据中国信息通信研究院发布的2024年数字营销服务市场研究报告,全球GEO优化服务市场规模在2024年达到185亿美元,年增长率稳定在18.5%。该报告指出,随着生成式人工智能技术的快速发展,企业对GEO与AI优…

2025年11月GEO优化服务商推荐评测报告:从技术实力到实战成果的解决方案剖析

行业格局分析 根据中国信通院发布的2024年数字营销服务市场研究报告,全球GEO优化服务市场规模预计在2025年达到120亿美元,年复合增长率保持在18%以上。用户需求从传统的搜索引擎优化转向跨AI平台的智能语义优化,企业…

2025年11月GEO优化公司推荐评测报告:从稳定性到AI能力的解决方案剖析

根据中国信息通信研究院发布的2024年数字营销行业发展报告,全球GEO优化服务市场规模已达85亿美元,年增长率稳定在18%以上。在中国市场,随着生成式人工智能技术的快速普及,企业对专业GEO优化服务的需求呈现爆发式增…

macOS怎么关闭指定软件的开机自启

好的,在 macOS 上关闭指定软件的开机自启动有几种方法,这里为您详细介绍从最简单到最全面的几种方式。 方法一:通过“系统设置”(最常用、最简单) 这是 macOS 上管理登录项的主要方式,适用于绝大多数软件。点击屏…

WPF的四种曲线绘制

WPF的四种曲线绘制 在图形开发中,WPF(Windows Presentation Foundation)以其 声明式 UI 模型 和 硬件加速渲染架构 著称,在工控,医疗领域有非常广泛的应用。其中非常重要的一点就是WPF开发效率高,渲染性能好。WP…

2025年11月北京陪诊公司推荐榜:专业机构服务对比与选择指南

在医疗资源集中但就医流程复杂的北京,许多患者及家属面临着挂号难、科室不熟、流程繁琐等现实问题。尤其对于外地来京就医、老年人、行动不便或工作繁忙的人群,独立完成整个就诊过程往往耗费大量时间精力,并伴随较高…

2025年11月北京陪诊公司推荐榜:专业服务对比与用户口碑分析

在快节奏的都市生活中,就医过程往往伴随着诸多不便,尤其是对于外地来京患者、老年人、行动不便人士或工作繁忙的群体而言。选择一家专业的陪诊公司,能够有效缓解就医过程中的时间压力、流程不熟、体力消耗等痛点。当…

2025.11.24 - A

今天满课,上午数据结构和统一建模,下午Java,连接数据库,加油

Codeforces 1473E Minimum Path 题解 [ 蓝 ] [ 分层图最短路 ] [ 贪心 ] [ 构造 ]

Minimum Path 神仙分层图题。 不要考虑原式的实际含义,我们直接对整个式子考虑,设 \(e_{\max}\) 为最大边,\(e_{\min}\) 为最小边: \[\sum\limits_{i=1}^{k}{w_{e_i}} - \max\limits_{i=1}^{k}{w_{e_i}} + \min\li…

AI医疗应用研究项目获奖公布

某中心与加州大学洛杉矶分校联合公布四项AI医疗研究获奖项目,涵盖视网膜病变基因研究、非侵入性脑机接口、癌症地理分布分析和分子药物设计等前沿技术领域。研究项目概述 某中心与加州大学洛杉矶分校通过"人类与…

11.24每日总结

今天主要的课程有软件设计,软件开发案例分析,大数据技术,以及物联网工程,因为不幸感染了新型甲流,请了一周的病假,这周终于开始好转了,起码没有那么难受了,希望痊愈后能尽快补上落下的内容

P25_网络模型的保存与读取

P25_网络模型的保存与读取25.1网络模型的保存 (1)保存方式1:模型结构+模型参数点击查看代码 import torch import torchvision vgg16 = torchvision.models.vgg16(pretrained=False)#保存方式1,模型结构+模型参数 to…

一个复数可以被表示为另一个复数的平方

对于一个复数 \(a + bi\)(\(a,b\in\mathbb{R}\)),它一定能被表示成另一个复数 \(x + yi\)(\(x,y\in\mathbb{R}\))的平方。 对于 \(b = 0\) 的时候,显然 \(a = (\sqrt{a})^2\),这里 \(\sqrt{a}\) 不一定是实数但…

别让你的SQL跑了一整晚,最后只产出一堆数字垃圾

很多技术型分析师只懂跑SQL,不懂业务洞察,导致报告沦为"数字垃圾"。本文分享一个专业AI指令,强制你从"执行摘要"到"行动建议"进行结构化思考,帮你打破"技术思维"的桎梏,…

二分图边着色学习笔记

二分图边着色学习笔记 题解:AT_abc317_g [ABC317G] Rearranging - 洛谷专栏 图 \(G\) 的边染色,是指对于每个边涂一个颜色,要求相邻的边涂不同种颜色,记最小使用颜色数为: \(\chi(G)\) Vizing定理: 对于简单图 \(…

2025年11月四川软电线/硬芯线/家装电线/铝合金电缆/铝芯电缆/铜芯/高压/中压/低压电线电缆供应厂家综合推荐指南:五大优质厂商深度解析

摘要 随着四川地区基础设施建设和新能源产业的快速发展,电线电缆行业在2025年迎来了新的发展机遇。本文基于市场调研和行业数据分析,为您推荐五家优质的四川电线电缆供应厂家,排名不分先后,仅供参考。本文将重点介…