Linux 快速对比两个文件的差异值

Linux 快速对比两个文件的差异值(无需排序、直接输出)

在日常开发或数据处理中,若需快速对比两个文本文件中的差异值(仅保留第一个文件中的独有内容),Linux 系统提供了两种高效方法。以下是具体操作及适用场景分析:


 

目录

Linux 快速对比两个文件的差异值(无需排序、直接输出)

方法一:comm 命令(需文件已排序)

方法二:grep 命令(无需排序、直接输出)

两种方法对比

注意事项


方法一:comm 命令(需文件已排序)

适用场景:文件内容已排序,且需精准对比。
步骤

  1. 预处理排序(若文件未排序):
    sort file1.txt -o file1_sorted.txt sort file2.txt -o file2_sorted.txt
  2. 执行对比
    comm -23 file1_sorted.txt file2_sorted.txt
     
    • 参数说明
      • -23:隐藏第二个文件和第三个列的输出,仅显示第一个文件独有的行。
      • 输出列含义(默认三列):
        • 第1列:仅 file1 存在的行
        • 第2列:仅 file2 存在的行
        • 第3列:两文件共有的行

方法二:grep 命令(无需排序、直接输出)

适用场景:文件未排序,且希望实时输出结果到终端。
命令

grep -Fvxf file2.txt file1.txt

复制

参数解析

  • -F:禁用正则表达式,按字面字符串匹配。
  • -v:反向匹配,仅输出不满足条件的行。
  • -x:整行精确匹配(避免部分匹配)。
  • -f file2.txt:从 file2.txt 中读取匹配模式。
  • 逻辑解释:在 file1.txt 中筛选出所有不在 file2.txt 中出现的行。

两种方法对比
特性comm 命令grep 命令
需预先排序✔️ 必需❌ 无需
输出效率高(适合大文件)中(逐行匹配,大文件略慢)
灵活性需固定列对比支持模糊匹配(移除 -x 参数)
适用场景严格有序数据对比快速实时对比

注意事项
  1. 性能差异
    • comm 对排序后文件的对比速度极快,但排序过程可能耗时。
    • grep 直接处理原始文件,但文件过大时内存占用较高。
  2. 内容规范
    • 确保文件无多余空格或隐藏字符(可用 cat -A 检查)。
  3. 扩展应用
    • 若需同时输出两文件的差异,可结合两次 grep
      grep -Fvxf file1.txt file2.txt # file2独有内容 
      grep -Fvxf file2.txt file1.txt # file1独有内容

通过以上方法,可快速定位文件差异,满足不同场景下的数据对比需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/69403.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Pytorch实战教程】PyTorch中的Dataset用法详解

PyTorch中的Dataset用法详解 在深度学习中,数据是模型训练的基石。PyTorch作为一个强大的深度学习框架,提供了丰富的工具来处理和加载数据。其中,Dataset类是PyTorch中用于处理数据的重要工具之一。本文将详细介绍Dataset的用法,帮助你更好地理解和使用它。 1. 什么是Dat…

python:面向对象之魔法方法

概念:主要是提供一些特殊的功能。 1.__init__方法: 一.不带参数: python中类似__xx__() __init__():初始化对象class Car():def __init__(self):self.color blueself.type suvdef info(self):print(f车的颜色是:{self.color})p…

python两段多线程的例子

记录瞬间 其一 # coding:UTF-8 import os import threading from time import ctimedef loop(loops, list): # list存放着每个线程需要处理的文本文件名print(线程 %d 处理的文件列表 %s \n % (loops 1, list))list_len len(list)for i in range(list_len):f open(list[i…

基于蒙特卡洛思想生成电动汽车充电负荷曲线

本程序基于蒙特卡洛思想生成电动汽车充电负荷曲线,利用第十一届电工杯所提供的数据(充电开始时间,充电电量,充电功率)得到一万台电动汽车充电负荷曲线。蒙特卡洛只是解决问题的一种思想,本程序可为其他利用…

语言月赛 202308【小粉兔做麻辣兔头】题解(AC)

》》》点我查看「视频」详解》》》 [语言月赛 202308] 小粉兔做麻辣兔头 题目描述 粉兔喜欢吃麻辣兔头,麻辣兔头的辣度分为若干级,用数字表示,数字越大,兔头越辣。为了庆祝粉兔专题赛 #1 的顺利举行,粉兔要做一些麻…

C++20导出模块及使用

1.模块声明 .ixx文件为导入模块文件 math_operations.ixx export module math_operations;//模块导出 //导出命名空间 export namespace math_ {//导出命名空间中函数int add(int a, int b);int sub(int a, int b);int mul(int a, int b);int div(int a, int b); } .cppm文件…

使用redis实现 令牌桶算法 漏桶算法

流量控制算法,用于限制请求的速率。 可以应对缓存雪崩 令牌桶算法 核心思想是: 有一个固定容量的桶,里面存放着令牌(token)。每过一定时间(如 1 秒),桶中会自动增加一定数量的令牌…

活动预告 | 解锁 Excel 新境界 —— AI 技术赋能下的数据分析超级引擎!

课程介绍 在 AI 技术的浪潮中,Microsoft Excel 已经焕然一新,它不再仅仅是海量复杂数据的处理中心,更是未来趋势的预测大师。智能 Copilot 副驾驶的加入,让 Excel 如虎添翼,成为每一位数据探索者梦寐以求的超级引擎。在…

在阿里云ECS上一键部署DeepSeek-R1

DeepSeek-R1 是一款开源模型,也提供了 API(接口)调用方式。据 DeepSeek介绍,DeepSeek-R1 后训练阶段大规模使用了强化学习技术,在只有极少标注数据的情况下提升了模型推理能力,该模型性能对标 OpenAl o1 正式版。DeepSeek-R1 推出…

Python分享20个Excel自动化脚本

在数据处理和分析的过程中,Excel文件是我们日常工作中常见的格式。通过Python,我们可以实现对Excel文件的各种自动化操作,提高工作效率。 本文将分享20个实用的Excel自动化脚本,以帮助新手小白更轻松地掌握这些技能。 1. Excel单…

使用requestAnimationFrame减少浏览器重绘

文章目录 介绍使用使用rAF前使用rAF后 介绍 在屏幕中,浏览器通常都以60FPS(1/60 s)每帧更新屏幕,但是当前端绑定了一些高频事件,如鼠标移动,屏幕滚动、触摸滑动等时,在一帧的周期内,…

Android的MQTT客户端实现

在 Android 平台上实现 MQTT 客户端的完整技术方案,涵盖基础实现、安全连接、性能优化和最佳实践: 一、技术选型与依赖配置 推荐库 Eclipse Paho Android Service(官方维护,支持后台运行) gradle 复制 // build.gradl…

SQL LEFT JOIN 详解

SQL LEFT JOIN 详解 引言 在SQL数据库查询中,LEFT JOIN 是一种强大的联接操作符,它允许我们从两个或多个表中检索数据。本文将详细介绍 LEFT JOIN 的概念、用法以及在实际应用中的注意事项。 一、什么是 LEFT JOIN? LEFT JOIN 是一种 SQL 联接操作符,用于返回左表(Lef…

理解UML中的四种关系:依赖、关联、泛化和实现

在软件工程中,统一建模语言(UML)是一种广泛使用的工具,用于可视化、设计、构造和文档化软件系统。UML提供了多种图表类型,如类图、用例图、序列图等,帮助开发者和设计师更好地理解系统的结构和行为。在UML中…

es match 可查 而 term 查不到 问题分析

版本信息 elasticsearch-8.13.0 es 匹配逻辑 根本:es 的匹配是基于token 的。检索的query和目标字段在token 层级上有交集才能检索成功。对同样的文本,使用不同的分词器,所得token 不同。es 默认的analyzer(分词器)是standard模式&#xf…

如何通过Deepseek的API进行开发和使用(适合开发者和小白的学习使用教程)

目录 一,API创建与获取 二,直接进行API的调用 2.1 安装第三方库 2.2 官方支持的接口调用方式 2.3 编写的小tips 2.4 AI助手工具代码 三, 配置方面的说明 3.1 token价格和字符用量 3.2 响应错误码 最近在休息的时候也是一直会刷到关于deepseek,简单使用了一下,发现这…

C#+halcon机器视觉九点标定算法

在机器视觉中,九点标定(也称为九点标定法)是一种常用的方法,用于将图像坐标系与物理坐标系进行映射。通过标定,可以将图像中的像素坐标转换为实际物理坐标,或者反之。下面是一个使用C#和Halcon进行九点标定…

Stream API 进阶:筛选、映射、查找、归约

文章目录 1. 引言 (Introduction)2. 筛选和切片 (Filtering and Slicing)2.1 使用谓词筛选 filter2.2 筛选各异的元素 distinct2.3 截短流 limit2.4 跳过元素 skip 3. 映射 (Mapping)3.1 对流中每一个元素应用函数 map3.2 流的扁平化 flatMap 4. 查找和匹配 (Finding and Match…

使用scoop 下载速度慢怎么办

在国内使用 Scoop 下载速度慢是一个常见问题,主要是因为 Scoop 默认的软件源(bucket)和下载服务器通常位于国外。以下是一些提高下载速度的方法: 1. 更换 Scoop 镜像源(Bucket 镜像): 原理&…

unity学习33:角色相关2,碰撞检测,collider 和 rigidbody,测试一个简单碰撞爆炸效果

目录 1 给gameObject添加rigidbody 2 rigidbody的属性 2.1 基础属性 2.2 插值 详细 2.3 碰撞检测 2.4 constraints 冻结坐标轴的移动和旋转 2.5 layer Overrides 3 碰撞检测 collision Detection 3.1 每个gameObeject上都会创建时自带一个 Collider 3.2 Collider的绿…