Shell Daily 2026-01-06: 精准提取 (Grep Only)

Shell Daily 2026-01-06: 精准提取 (Grep Only)

在日志分析中,我们经常面临这样的需求:只想把日志里的 IP 地址、订单号或 URL 单独抠出来。

为了达到这个目的,很多人的肌肉记忆是“组合拳”:先用 grep 过滤行,再用 awk 切分列,或者用 sed 做正则替换。比如为了拿一个 IP,可能写出 awk '{print $3}' 这种依赖列位置的代码,一旦日志格式变动,脚本立马失效。

其实,grep 早就具备了将它变成提取工具的能力,你只需要一个参数:-o (Only matching)

怎么用

通常 grep 会输出包含匹配内容的整行,而加上 -o 后,它只会输出匹配到的部分。每一处匹配都会单独占一行。

  • 语法grep -o "正则表达式" file
  • 兼容性Linux (GNU grep)macOS (BSD grep) 均支持。

适用场景

  • 数据清洗:从杂乱的文本中提取结构化数据(如邮箱、链接)。
  • 统计分布:配合 sort | uniq -c,统计某个特定模式(如错误码、API 接口)出现的频率。

示例 1:提取所有的 IP 地址

假设你有个 access.log,你想把里面所有的客户端 IP 拿出来,不管它出现在日志的第几列:

# -E 表示使用扩展正则 (Extended Regex)
# -o 表示只输出匹配到的 IP 字符串
grep -o -E "([0-9]{1,3}\.){3}[0-9]{1,3}" access.log# 输出结果不再是整行日志,而是纯净的 IP 列表:
# 192.168.1.1
# 10.0.0.5
# ...

示例 2:高频词统计 (Top K)

这是一个价值极高的组合技。假设你想知道今天的 Nginx 日志里,哪个 URL 报错(404)最多。

如果用 awk,你得数 URL 在第几列。用 grep -o,直接用正则匹配 URL 路径即可:

# 1. 先过滤出 404 的行
# 2. 用 grep -o 提取出请求路径 (比如 /api/v1/user/...)
# 3. 排序并统计频率
grep " 404 " access.log \| grep -o -E "/api/[a-zA-Z0-9/_]+" \| sort | uniq -c | sort -nr | head -5# 输出:
# 150 /api/v1/old_endpoint
#  89 /api/v2/glitchy_image.png

(注:把 grep 从“搜索行”变为“提取器”,能让你彻底摆脱对列号的依赖,写出更健壮的数据处理管道。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1118538.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

35+程序员转型指南:大模型岗位薪资与路径全解析,揭秘破局关键,助你职场逆袭!

对于大多数程序员而言,职业发展到一定阶段,必然会遭遇转型的十字路口。这一关键节点的选择,往往决定了后续5-10年的职业高度,而转型方向无外乎三大主流:技术深耕升级、管理岗位跃迁、自主创业突围。 从初入职场的代码…

Linux bind 命令详解

Linux bind 命令详解bind 是 Bash shell 的内置命令,用于管理键盘快捷键和命令行编辑功能。它允许你自定义按键绑定,增强命令行操作效率。基本概念bind 主要用于:绑定按键序列到函数绑定按键序列到宏查看当前绑定设置管理 Readline 库配置基本…

合同条款冲突检测:自动识别潜在矛盾点

合同条款冲突检测:自动识别潜在矛盾点 在企业日常运营中,合同审查是一项高频且高风险的任务。一份看似普通的采购协议,可能因付款周期的细微差异引发后续纠纷;两个版本接近的框架协议,也可能在责任划分上埋下法律隐患。…

高密度训练策略揭秘:如何让小模型发挥出大性能

高密度训练策略揭秘:如何让小模型发挥出大性能 在AI竞赛日益激烈的今天,参数规模似乎成了衡量模型能力的“硬通货”——百亿、千亿级大模型轮番登场,动辄消耗百万美元算力预算。然而,就在这种“越大越好”的主流叙事下&#xff0c…

vue大文件上传的多平台部署与性能优化策略

北京码农の10G文件上传奇遇:在胡同里写信创代码 各位好,我是老张,北京中关村某软件公司“脱发攻坚队”队长。最近接了个政府项目,要求上传10G文件,还必须兼容信创环境并提供全套文档——这活儿就像在故宫里装Wi-Fi&am…

为什么你的容器假死?,深度解析健康检查失效根源与修复方案

第一章:为什么你的容器假死?在 Kubernetes 或 Docker 环境中运行容器时,开发者常遇到“容器仍在运行但服务无响应”的现象,这被称为“容器假死”。其根本原因并非容器进程崩溃,而是主进程陷入阻塞、资源耗尽或健康检查…

参数仅15亿却胜过大模型,VibeThinker凭什么做到?

参数仅15亿却胜过大模型,VibeThinker凭什么做到? 在大模型动辄千亿参数、训练成本动辄数百万美元的今天,一个仅1.5B(15亿)参数的小模型,居然能在数学推理和编程竞赛题上击败比它大几十倍的“庞然大物”——…

实验性发布意味着什么?关于VibeThinker的定位解读

实验性发布意味着什么?关于VibeThinker的定位解读 在大模型军备竞赛愈演愈烈的今天,我们似乎已经习惯了“千亿参数起步”“万亿token训练”的宏大叙事。GPT、Claude、通义千问这些庞然大物不断刷新着性能上限,但也把算力门槛推到了普通人难以…

生产管理系统哪个好?推荐这几款 - 企业数字化观察家

生产管理,是制造企业的“心脏”。管得好,效率飙升、成本直降;管不好,到处卡壳、漏洞百出。故而面对市场上琳琅满目的生产管理系统(MES/ERP等),很多老板和工厂负责人都会头疼:到底生产管理系统哪个好? 是选国际…

作弊检测系统增强:分析操作模式识别异常行为

作弊检测系统增强:分析操作模式识别异常行为 在各类在线编程竞赛、自动化评测平台和远程考试场景中,AI辅助解题的普及正在悄然改写“公平竞争”的边界。过去,判断是否作弊主要依赖答案比对——只要结果正确,过程往往被忽略。但如今…

如何快速将文件生成专属二维码?文件生成二维码指南

在日常工作与生活中,我们经常需要分享文档、PDF、表格、PPT 或压缩包等文件。传统的发送方式依赖邮箱、网盘链接或即时通讯工具,不仅步骤繁琐,还可能受平台限制。其实,只需将文件生成二维码,对方扫码即可直接下载或在线…

c语言复习

scanf零,scanf是以行输入的输入是以行进行的,也就是每有一个scanf行输入一个回车scanf输入时需要注意的点如果一次输入如多个数据,则需要按照分割参数的方法分割开输入的数据使用scanf_s读取三个整数,输入时需要严格匹配格式字符串…

结构化推理场景首选:VibeThinker-1.5B应用案例解析

VibeThinker-1.5B:小模型如何打赢高难度推理战? 在大模型动辄数百亿、上千亿参数的今天,一个仅15亿参数的“小个子”却频频在数学竞赛和编程挑战中击败巨无霸——这听起来像极了AI领域的“田忌赛马”。而主角正是微博开源的实验性模型 VibeTh…

如何将照片合集制成二维码?图片生成二维码指南

在分享旅行回忆、活动花絮、产品图集或家庭相册时,一张张发送照片既繁琐又占空间。其实,只需一个二维码,就能把整套照片打包分享给他人——对方扫码即可在线浏览全部图片,无需下载多个文件。本文将为您介绍如何快速将照片合集制作…

2026年深圳宝安区及大湾区跨境电商园区终极推荐指南:3大产业园深度解析与选择策略 - 品牌2026

对于计划在2026年拓展全球业务的跨境电商企业、正在寻找理想产业基地的创业者、或是急需高效会展与活动场地的峰会举办方而言,选择一个合适的跨境电商产业园,是决定出海效率、成本控制与资源链接深度的关键第一步。面…

揭秘Docker容器网络日志难题:Cilium如何实现精准日志输出

第一章:Docker容器网络日志的挑战与Cilium的崛起在现代云原生架构中,Docker容器的广泛应用使得网络通信日益复杂。传统的容器网络模型依赖于iptables进行流量管理,但随着服务数量的增长,规则膨胀导致性能下降,且难以实…

vue大文件上传的示例代码与源码解析分享

大文件传输系统设计方案(基于SM4国密算法) 需求分析 作为四川某软件公司的开发人员,我面临以下核心需求: 实现10GB级别大文件的分片上传/下载采用国密SM4算法进行端到端加密服务端需支持SM4加密存储兼容主流浏览器及信创国产化…

一站式指南:盐雾腐蚀试验箱选购、品牌对比与厂家推荐 - 品牌推荐大师

在材料研发、质量控制及产品可靠性测试领域,盐雾腐蚀试验箱是评估金属、涂层、电镀件及复合材料耐腐蚀性能的核心设备。其通过模拟海洋或含盐潮湿环境,加速材料腐蚀过程,为改进工艺和提升产品质量提供关键数据。随着…

新手如何快速制作GIF?GIF制作指南

在日常分享中,生动有趣的GIF总能比静态图片更抓眼球,不管是记录生活片段、制作工作表情包,还是给文案搭配动态素材,gif制作都是绝佳选择。其实不用复杂的专业软件,新手也能快速做出高质量GIF,下面就把详细步…

Cilium监控日志无从下手?10个关键配置让你秒变专家

第一章:Cilium监控日志的核心价值与挑战在云原生环境中,网络可见性是保障系统稳定性和安全性的关键。Cilium 作为基于 eBPF 技术的高性能网络和安全解决方案,提供了深度的网络流量洞察能力。其监控日志不仅记录了 Pod 间的通信行为&#xff0…