aix linux运维,运维老司机分享的八个AIX日常运维经验及案例

5e9437dec1b5eb35114fac339bb0eb8e.png

原文来自微信公众号:AIX专家俱乐部

【经验分享】在AIX启动时,打开debug模式

经常遇到aix无法启动,但又不知道pending在哪,因此打开启动过程的debug模式,对于诊断问题有很大的帮帮助。下面是打开debug的方法:

打开启动debug先进入微码模式(启动界面中输入8)

boot -s trap

进入kdb

dbgopt

选择要debug的内容

重新进入kdb

输入g

分享者:崔增顺

【经验分享】odm库修复方法

cc522026d5760661f9818e51ef30cc0a.png

分享者:崔增顺

【经验分享】如何收集filemon数据

filemon -O all -o filemon.out;sleep 30;trcstop

语法:

filemon [ -d ] [ -i Trace_File -nGennames_File] [ -o File] [ -O Levels] [ -P ] [ -T n] [ -u ] [ -v ]

#filemon-o fm.out -O all ; sleep 30 ; trcstop

输出结果保存在fm.out 中。输出字段说明如下:

最活跃的文件

 #MBs 此文件在测量间隔时间内的传送量(以 MBs 为单位)。各行按照此字段降序排列。

 #opns 在测量周期内的文件的打开次数。

 #rds 文件读取调用的次数

 #wrs 文件写入调用的次数

 file 文件名称(文件路径全称在详细报告中)。

 volume:inode 文件驻留的逻辑卷和在相连文件系统总的 i-node 数目。此字段可以被用来把文件和在详细的 VM 段报告中显示的其相应的永久段关联起来。此字段对在执行过程中创建和删除的临时文件可以为空。

最活跃的段

 #MBs 此段在测量间隔时间内的传送量(以 MBs 为单位)。各行按照此字段降序排列。

 #rpgs 从磁盘读入段中大小为 4-KB 的页面数

 #wpgs 从段中写入磁盘大小为 4-KB 的页面数(page out)

 #segid 内存段的 VMM 标识

 segtype段的类型:工作段、永久段(本地文件)、客户机段(远程文件)、页表段、系统段或者包含文件系统数据的指定永久段。

 volume:inode 对永久段来说,包含相关文件的逻辑卷名称和文件的 i-node 数目。此字段可以被用来把段和在详细的文件状态报告中显示的其相应的文件关联起来。对非永久段来说,此字段为空。

最活跃的逻辑卷

 util 逻辑卷使用率。

 #rblk 从逻辑卷读取的大小为 512 字节的块数。

 #wblk 写入逻辑卷大小为 512 字节的块数。

 KB/s 每秒钟平均传送速率,单位 KB。

 volume 逻辑卷名称。

 description 文件系统安装点或是逻辑卷类型(paging, jfslog, boot,or sysdump)。例如,逻辑卷 /dev/hd2 是/usr类型;/dev/hd6 是 paging 类型以及 /dev/hd8 是 jfslog 类型。有时也可能出现被压缩的这个字眼。这意味着所有的数据在被写入磁盘前都会以 Lempel-Zev(LZ)压缩技术自动压缩,在从磁盘读取时则自动解压缩。

最活跃的物理卷

 util 物理卷使用率。

注:逻辑卷 I/O 请求在物理卷 I/O 请求前后启动。总的逻辑卷使用率将会看起来比总的物理卷使用率高。使用率用百分比表示,0.10 是指 10% 的物理卷在测量时间间隔内繁忙。

 #rblk 从物理卷读取的大小为 512 字节的块数。

 #wblk 写入物理卷大小为 512 字节的块数。

 KB/s 每秒钟平均传送速率,单位 KB。

volume 物理卷名称。

 description 有关物理卷类型的简单描述,例如, SCSI 多媒体 CD-ROM 驱动器或 16位SCSI 磁盘驱动器。

文件系统的安装点(mount point)及文件的i节点(inode)可与命令ncheck一起使用,来找出相对应的文件。

分享者:崔增顺 张文正

【案例分享】/dev/null 2>&1 文件过大导致根目录爆满

在日常检查维护过程中,发现小机分区/目录89%,90%,

du -axg / |sort -rn|head

查找出/根目录下最大的10 个文件,发现 ‘/dev/null 2>&1’文件非常大,占比达60%,而且rootvg所剩余的空间不足,无法进行扩容。在IBM官网查询手册以及证实后,发现此文件不停增大为AIX6.1的系统BUG。在观察了近1个月后,在和童确认。在dfkdr分区上进行尝试删除。之后,,进行删除操作。根目录恢复正常。

http://www-01.ibm.com/support/docview.wss?uid=nas74d33539b559cc0308625792900533a8f

Description

The /var/opt/tivoli/ep/rusntime/nonstop/bin/cas_src.sh script writes a file “/dev/null 2>&1” which might fill up the / filesystem.

This happens with agents that have the following cas.agent fileset version:

cas.agent 1.4.2.32

Common Agent Services Agent

Work-around and fix notes are detailed below.

判别是否存在BUG

lslpp -L cas.agent

可看到Level为1.4.2.32,C F

BUG脚本为

cat /var/opt/tivoli/ep/runtime/nonstop/bin/cas_src.sh

else

CAS_SRC_LOG=”/dev/null 2>&1”

fi

Bug 2 : After installing TL7 and at system reboot, the Director agent is automatically enabled.

处理方式:

1.disable cas_agent 操作命令: stopsrc –s cas_agent

2.disable the cas_agent entry in /etc/inittab 操作命令:chitab “cas_agent:2off:/usr/bin/startsrc –s cas_agent >/dev/null 2>&1”

3.在/dev下执行rm nul*1

分享者:ACDante

【案例分享】多CEC柜 9117-570更换FSP后报无法开机,代码报B1551380

原因:没有按HMC流程更换FSP,换上去的FSP的”processing unit identifier”记录的是B2,B2设置只能支持单柜,不支持多CEC柜。

解决:powered off状态时,进入ASM把”processing unit identifier”改为B3。

Note: This feature is available only when the system is powered off. This operation resets the service processor.

To change the processing unit identifier, do the following:

1.On the ASMI Welcome pane, specify your user ID and password, and click Log In.

2.In the navigation area, expand System Configuration.

3.Select Processing Unit Identifier.

4.Enter the desired information into the 2-character text area. Supported processing unit identifiers are shown in the following table:

04d2fd05f07d1168947c92081bd1d917.png

5.Note: Processing unit IDs are not applicable for IntelliStation® POWER® 185, 7037-A50, and the 7031-D24 and 7031-T24enclosure models.

6.Click Save settings to complete the operation.

分享者:姜恒

【案例分享】AIX6100-06-06系统bug引起down机

某机器操作系统版本6100-06-06,系统down机,生成dump文件。

Problem:

System crash with following stack

CRASH INFORMATION:

CPU 3 CSA F00000002FF47600 at time of crash, error code

for

LEDs: 30000000

pvthread+02BD00 STACK:

[00009500].simple_lock+000000 ()

[00450E24]netinfo_unixdomnlist+000824 (??, ??, ??, ??,

??, ??)

[0451214C]netinfo+00006C (??, ??, ??, ??, ??, ??)

[004504DC]netinfo+0000FC (??, ??, ??, ??)

[00003850]ovlya_addr_sc_flih_main+000130 ()

[kdb_get_virtual_memory] no real storage @

FFFFFFFFFFFEF20

[100002640]0000000100002640 ()

[kdb_read_mem] no real storage @ FFFFFFFFFFF5E30

bug原因

File lock is taken before checking whether the file type is

socket.

该故障因netstat -f unix 命令引起系统 crash, 是iBM bug 引起

建议单独提升bos.mp64包补丁包或者整体升级到6100-06-12-1339(SP12)

官网解释:

IV09793: SYSTEM CRASH IN NETINFO_UNIXDOMNLIST APPLIES TO AIX 6100-06

http://www-01.ibm.com/support/docview.wss?uid=isg1IV09793

File lock is taken before checking whether the file type is

socket.

分享者:qb306

【案例分享】一次HACMP的回车

记得印象很深刻的一次,当时并没有陪过HACMP,但维护的环境中有一台出报的系统找到了我。当时是打电话联系当时做这套系统的技术支持。逐步检查HACMP的配置,检查后。本来应该推出,但是当时手抖。习惯性的敲了回车。什么配置都没有改动。但是却报了错说让我重启生效,那时候才知道HACMP无论配置有没有改动。敲了回车就认为是修改了配置。要重启。

分享者:pysx0503

【案例分享】某企业HACMP软件,在网络交换机变更是引起down机

某企业HA cluster log, IP switch down时引起双节点halt,系统版本7100-03-03,HA版本6.1sp13

Error description

In HACMP 6 with rsct.core.utils 3.1.4.9 or higher, if all

IP networks are lost and at least one non-IP network is

functioning, the Group Services subsystem will core dump when

trying to send packets to be routed through Topology Services

(across the non-IP connection). This will cause a node halt.

Customers with PowerHA 7, or HACMP 6 customers with no non-IP

networks (such as rs232 or disk) are not in danger. Also this

will not happen if only one node is still running, since there

will be no other cluster members to send messages to.

日志如下

Nov 21 01:35:46 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.mbpHK/ONs/o.Ama/……………….:::Reference ID:

:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i

nterface name en2 Adapter offset 1 Adapter IP address 192.200.192.52

Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv1 192.200.192.52

Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv1 192.200.192.52 0

Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv2 192.200.192.53

Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv2 192.200.192.53 0

Nov 21 01:40:34 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.GgpHK/DLG.o.Ama/……………….:::Reference ID:

:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i

nterface name en0 Adapter offset 0 Adapter IP address 102.200.192.52

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: Called, state=ST_UNSTABLE, provider token 1

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GsToken 2, AdapterToken 3, rm_GsToken 1

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GRPSVCS announcment code=512; exiting

Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 CHECK FOR FAILURE OF RSCT SUBSYSTEMS (topsvcs or grpsvcs)

Nov 21 01:40:36 masterserv1 daemon:err|error haemd[15204586]: LPP=PSSP,Fn=emd_gsi.c,SID=1.4.1.37,L#=1395, haemd: 2521-032 Cannot d

ispatch group services (1).

Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Unexpected termination of clstrmgrES.

Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Halting system immediately!!!

原因是补丁IV55293: HAGSD CORE DUMP WHEN IP NETWORKS LOST, 需要升级rsct文件集。

官网解释:

http://www-01.ibm.com/support/docview.wss?uid=isg1IV55293

分享者:qb306

本文链接:http://www.yunweipai.com/11845.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/433197.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mysql找不到mysql.sock怎么办?

1. #ps -aux|grep mysql 找mysql的进程. #kill mysql进程号 确定全部kill光 2.直接跳第3步,无效再使用第2步 /usr/local/mysql/bin/mysqld_safe --usermysql & 启动mysql. bin/mysql -u root -p 登陆mysql 3. 重启mysql服务,可以到mysql的安装目录下…

ssr无法在win10使用_Win10疑难解答无法使用怎么办-百度经验

Win10疑难解答无法使用的解决方法Win10系统打开疑难解答工具时只显示“出于安全考虑,某些设置由组策略控制”,怎么办?1、打开Windows10系统的控制面板,双击疑难解答,出现提示:出于安全考虑,某些…

sqlite3_column

这个过程从执行sqlite3_step()执行一个准备语句得到的结果集的当前行中返回一个列。每次sqlite3_step得到一个结果集的列停下后,这个过程就可以被多次调用去查询这个行的各列的值。对列操作是有多个函数,均以sqlite3_column为前缀 const void *sqlite3_…

linux中将hdfs数据导入hbase,将数据文件导入到HBase中

假设有一个TSV格式的数据文件test.dat(TSV是指数据文件中的每个字段是以制表符隔开的)首先,将test.dat上传到hdfs上,具体的命令如下:hadoop fs -copyFromLocal test.dat的路径名 /tmp/test.dat(/tmp是hdfs上的一个目录)执行以下命令就可以查…

ios13看怎么airpods电量_iPhoneXR查看airpods蓝牙耳机电量的三种方法

AirPods是苹果公司研发的一款蓝牙耳机,与方法一、当 AirPods 与 iPhoneXR 已经自动配对连接,这时想看耳机和盒子电量,只要在 iPhoneXR 屏幕点亮或解锁的情况下,在手机旁边打开 AirPods 收纳盒的盖子,手机便会自动弹出耳…

sqlite3_finalize sqlite3_close

sqlite3_finalize int sqlite3_finalize(sqlite3_stmt *pStmt); 这个过程销毁前面被sqlite3_prepare创建的准备语句,每个准备语句都必须使用这个函数去销毁以防止内存泄露。 在空指针上调用这个函数没有什么影响,同时可以准备语句的生命周期的任一时刻…

人这辈子没法做太多的事情

人这辈子没法做太多的事情,所以每一件都要做得精彩绝伦。转载于:https://www.cnblogs.com/xiandedanteng/p/3291585.html

magicbook linux系统换w7,荣耀magicbook怎么安装win7 荣耀magicbook安装win7方法

荣耀magicbook 2019笔记本是一款2019年上市的时尚轻薄笔记本电脑,这款电脑采用了amd ryzen 5系列处理器以及性能级独立显卡,能够满足用户们日常娱乐使用需求,那么荣耀magicbook 2019笔记本怎么使用u启动u盘启动盘安装win7系统呢?今天为大家分…

php 区块链算法_PoW/BFT等5种主流区块链共识算法的开源代码实现

共识算法是实现自主产权区块链的必不可少的关键环节,本文列出社区中相对成熟的区块链共识算法开源实现,包括BFT共识、Raft共识、Paxos共识、PoW共识等,可供希望开发自主产权区块链的团队参考学习。相关推荐:区块链开发系列教程1、…

makefile 的export问题

from http://againinput4.blog.163.com/blog/static/172799491201132693532418/ 1.在(parent,上层的)makefile中export出来变量,子makefile(sub make)中,是可以访问的。 2. 而同一级别的makefil…

单片机 串口 波特率 c语言 9600 11.0592mhz t1,PLC与单片机串口通信的实现

党强摘要:本文主要进行探讨单片机与可编程逻辑控制器plc之间的串行通信以及各个系统在通信技术中的应用,本文主要以at89c51单片机和fpi系列的单片机为例进行阐述单片机与plc的串行通信。关键词:plc 单片机 串行通信中图分类号:TP2…

PHP中的正则表达式函数preg_

preg_match(); //用于正则表达式的匹配,且只匹配一次 preg_match_all();//用于正则表达式的匹配,会对所有符合规则的都进行匹配 preg_replace(); //正则表达式替换函数 preg_splite(); //正则分割函数 preg_match ( mode, string subject , ar…

vue 离开页面时间_vue页面离开后执行函数的实例

vue页面离开后执行函数的实例如下所示:destroyed: function () {console.log("我已经离开了!");this.doSomething();},说明:destroyed是与methods、mounted同层级的以上这篇vue页面离开后执行函数的实例就是小编分享给大家的全部内…

Linux批量删除文件

find [目录名] -name [文件名] -exec rm -rf {} \; 例如:find ./ -name *.raw -exec rm -rf {} \; 其中, -exec 表示后面执行命令 {} 表示查询到的文件名 -rf 为删除命令rm的参数,r 表示递归删除, f表示不需要确认,两个…

c语言选择结构程序设计报告,C语言学习与总结---第四章:选择结构程序设计

选择结构程序设计4.1 if语句4.2 关系运算符和关系表达式4.2.1 关系运算符4.2.2 关系表达式4.3 逻辑运算符和逻辑表达式4.3.1 逻辑运算符4.3.2 逻辑表达式4.4 条件运算符和条件表达式4.5 选择结构的嵌套4.6 switch语句4.7 程序应用4.1 if语句If语句有三种基本形式(1)if (判断条件…

jQuery 请指出'$'和'$.fn'的区别?或者说出'$.fn'的用途。

http://hi.baidu.com/chy0806css/item/acc52425099c30ff50fd87eb Jquery为开发插件提供了两个方法,分别是: $.extend(obj);$.fn.extend(obj); 1.那么这两个分别是什么意思? $.extend(obj);是为了扩展jquery本身,为类添加新的方法 …

gentoo 安装时的网络配置

在变换根目录(chroot)前,需要拷贝dns文件 cp -L /etc/resolv.conf/mnt/gentoo/etc/resolv.conf 在变换根目录(chroot)后 1. 修改主机名称 nano -w /etc/conf.d/hostname 2. 修改工作组名称 nano -w /etc/conf.d/domainname rc-update add domainname default 3…

[每日一题] 11gOCP 1z0-052 :2013-09-1 RMAN-- repair failure........................................A20...

转载请注明出处:http://blog.csdn.net/guoyjoe/article/details/10859315 正确答案:D 一、模拟上题的错误: 1、删除4号文件 [oraclemydb ~]$ cd /u01/app/oracle/oradata/ocm/ [oraclemydb ocm]$ rm -rf users01.dbf2、…

c语言学习自我评价,学习自我评价4篇

学习自我评价4篇发布时间:2019-04-08在这次研究性学习中,我们小组在老师的指导下,通过全体成员的协作分工、研究探讨,集全体之智慧,个人之所学,充分将课本中的理论知识与生活实践相结合,用理论指…