《運維老司機分享的八個AIX日常運維經驗及案例》要點:
本文介紹了運維老司機分享的八個AIX日常運維經驗及案例,希望對您有用。如果有疑問,可以聯系我們。
原文來自微信公眾號:AIX專家俱樂部
【經驗分享】在AIX啟動時,打開debug模式
經常遇到aix無法啟動,但又不知道pending在哪,因此打開啟動過程的debug模式,對于診斷問題有很大的幫幫助.下面是打開debug的方法:
打開啟動debug先進入微碼模式(啟動界面中輸入8)
boot -s trap
進入kdb
dbgopt
選擇要debug的內容
重新進入kdb
輸入g
分享者:崔增順
【經驗分享】odm庫修復方法
分享者:崔增順
【經驗分享】如何收集filemon數據
filemon -O all -o filemon.out;sleep 30;trcstop
語法:
filemon [ -d ] [ -i Trace_File -nGennames_File] [ -o File] [ -O Levels] [ -P ] [ -T n] [ -u ] [ -v ]
輸出結果保存在fm.out 中.輸出字段說明如下:
最活躍的文件
? #MBs 此文件在測量間隔時間內的傳送量(以 MBs 為單位).各行按照此字段降序排列.
? #opns 在測量周期內的文件的打開次數.
? #rds 文件讀取調用的次數
? #wrs 文件寫入調用的次數
? file 文件名稱(文件路徑全稱在詳細報告中).
? volume:inode 文件駐留的邏輯卷和在相連文件系統總的 i-node 數目.此字段可以被用來把文件和在詳細的 VM 段報告中顯示的其相應的永久段關聯起來.此字段對在執行過程中創建和刪除的臨時文件可以為空.
最活躍的段
? #MBs 此段在測量間隔時間內的傳送量(以 MBs 為單位).各行按照此字段降序排列.
? #rpgs 從磁盤讀入段中大小為 4-KB 的頁面數
? #wpgs 從段中寫入磁盤大小為 4-KB 的頁面數(page out)
? #segid 內存段的 VMM 標識
? segtype段的類型:工作段、永久段(本地文件)、客戶機段(遠程文件)、頁表段、系統段或者包含文件系統數據的指定永久段.
? volume:inode 對永久段來說,包含相關文件的邏輯卷名稱和文件的 i-node 數目.此字段可以被用來把段和在詳細的文件狀態報告中顯示的其相應的文件關聯起來.對非永久段來說,此字段為空.
最活躍的邏輯卷
? util 邏輯卷使用率.
? #rblk 從邏輯卷讀取的大小為 512 字節的塊數.
? #wblk 寫入邏輯卷大小為 512 字節的塊數.
? KB/s 每秒鐘平均傳送速率,單位 KB.
? volume 邏輯卷名稱.
? description 文件系統安裝點或是邏輯卷類型(paging, jfslog, boot,or sysdump).例如,邏輯卷 /dev/hd2 是/usr類型;/dev/hd6 是 paging 類型以及 /dev/hd8 是 jfslog 類型.有時也可能出現被壓縮的這個字眼.這意味著所有的數據在被寫入磁盤前都會以 Lempel-Zev(LZ)壓縮技術自動壓縮,在從磁盤讀取時則自動解壓縮.
最活躍的物理卷
? util 物理卷使用率.
注:邏輯卷 I/O 請求在物理卷 I/O 請求前后啟動.總的邏輯卷使用率將會看起來比總的物理卷使用率高.使用率用百分比表示,0.10 是指 10% 的物理卷在測量時間間隔內繁忙.
? #rblk 從物理卷讀取的大小為 512 字節的塊數.
? #wblk 寫入物理卷大小為 512 字節的塊數.
? KB/s 每秒鐘平均傳送速率,單位 KB.
volume 物理卷名稱.
? description 有關物理卷類型的簡單描述,例如, SCSI 多媒體 CD-ROM 驅動器或 16位SCSI 磁盤驅動器.
文件系統的安裝點(mount point)及文件的i節點(inode)可與命令ncheck一起使用,來找出相對應的文件.
分享者:崔增順 張文正
【案例分享】/dev/null 2>&1 文件過大導致根目錄爆滿
在日常檢查維護過程中,發現小機分區/目錄89%,90%,
du -axg / |sort -rn|head
查找出/根目錄下最大的10 個文件,發現 ‘/dev/null 2>&1’文件非常大,占比達60%,而且rootvg所剩余的空間不足,無法進行擴容.在IBM官網查詢手冊以及證實后,發現此文件不停增大為AIX6.1的系統BUG.在觀察了近1個月后,在和童確認.在dfkdr分區上進行嘗試刪除.之后,,進行刪除操作.根目錄恢復正常.
http://www-01.ibm.com/support/docview.wss?uid=nas74d33539b559cc0308625792900533a8f
Description
The /var/opt/tivoli/ep/rusntime/nonstop/bin/cas_src.sh script writes a file “/dev/null 2>&1” which might fill up the / filesystem.
This happens with agents that have the following cas.agent fileset version:
cas.agent 1.4.2.32
Common Agent Services Agent
Work-around and fix notes are detailed below.
判別是否存在BUG
lslpp -L cas.agent
可看到Level為1.4.2.32,C F
BUG腳本為
cat /var/opt/tivoli/ep/runtime/nonstop/bin/cas_src.sh
…
else
CAS_SRC_LOG=”/dev/null 2>&1”
fi
…
Bug 2 : After installing TL7 and at system reboot, the Director agent is automatically enabled.
處理方式:
1.disable cas_agent 操作命令: stopsrc –s cas_agent
2.disable the cas_agent entry in /etc/inittab 操作命令:chitab “cas_agent:2off:/usr/bin/startsrc –s cas_agent >/dev/null 2>&1”
3.在/dev下執行rm nul*1
分享者:ACDante
【案例分享】多CEC柜 9117-570更換FSP后報無法開機,代碼報B1551380
原因:沒有按HMC流程更換FSP,換上去的FSP的”processing unit identifier”記錄的是B2,B2設置只能支持單柜,不支持多CEC柜.
解決:powered off狀態時,進入ASM把”processing unit identifier”改為B3.
Note: This feature is available only when the system is powered off. This operation resets the service processor.
To change the processing unit identifier, do the following:
1.On the ASMI Welcome pane, specify your user ID and password, and click Log In.
2.In the navigation area, expand System Configuration.
3.Select Processing Unit Identifier.
4.Enter the desired information into the 2-character text area. Supported processing unit identifiers are shown in the following table:
5.Note: Processing unit IDs are not applicable for IntelliStation? POWER? 185, 7037-A50, and the 7031-D24 and 7031-T24enclosure models.
6.Click Save settings to complete the operation.
分享者:姜恒
【案例分享】AIX6100-06-06系統bug引起down機
某機器操作系統版本6100-06-06,系統down機,生成dump文件.
Problem:
System crash with following stack
CRASH INFORMATION:
CPU 3 CSA F00000002FF47600 at time of crash, error code
for
LEDs: 30000000
pvthread+02BD00 STACK:
[00009500].simple_lock+000000 ()
[00450E24]netinfo_unixdomnlist+000824 (??, ??, ??, ??,
??, ??)
[0451214C]netinfo+00006C (??, ??, ??, ??, ??, ??)
[004504DC]netinfo+0000FC (??, ??, ??, ??)
[00003850]ovlya_addr_sc_flih_main+000130 ()
[kdb_get_virtual_memory] no real storage @
FFFFFFFFFFFEF20
[100002640]0000000100002640 ()
[kdb_read_mem] no real storage @ FFFFFFFFFFF5E30
bug原因
File lock is taken before checking whether the file type is
socket.
該故障因netstat -f unix 命令引起系統 crash, 是iBM bug 引起
建議單獨提升bos.mp64包補丁包或者整體升級到6100-06-12-1339(SP12)
官網解釋:
IV09793: SYSTEM CRASH IN NETINFO_UNIXDOMNLIST APPLIES TO AIX 6100-06
http://www-01.ibm.com/support/docview.wss?uid=isg1IV09793
File lock is taken before checking whether the file type is
socket.
分享者:qb306
【案例分享】一次HACMP的回車
記得印象很深刻的一次,當時并沒有陪過HACMP,但維護的環境中有一臺出報的系統找到了我.當時是打電話聯系當時做這套系統的技術支持.逐步檢查HACMP的配置,檢查后.本來應該推出,但是當時手抖.習慣性的敲了回車.什么配置都沒有改動.但是卻報了錯說讓我重啟生效,那時候才知道HACMP無論配置有沒有改動.敲了回車就認為是修改了配置.要重啟.
分享者:pysx0503
【案例分享】某企業HACMP軟件,在網絡交換機變更是引起down機
某企業HA cluster log, IP switch down時引起雙節點halt,系統版本7100-03-03,HA版本6.1sp13
Error description
In HACMP 6 with rsct.core.utils 3.1.4.9 or higher, if all
IP networks are lost and at least one non-IP network is
functioning, the Group Services subsystem will core dump when
trying to send packets to be routed through Topology Services
(across the non-IP connection). This will cause a node halt.
Customers with PowerHA 7, or HACMP 6 customers with no non-IP
networks (such as rs232 or disk) are not in danger. Also this
will not happen if only one node is still running, since there
will be no other cluster members to send messages to.
日志如下
Nov 21 01:35:46 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.mbpHK/ONs/o.Ama/……………….:::Reference ID:
:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i
nterface name en2 Adapter offset 1 Adapter IP address 192.200.192.52
Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv1 192.200.192.52
Nov 21 01:35:49 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv1 192.200.192.52 0
Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT START: fail_standby masterserv2 192.200.192.53
Nov 21 01:35:51 masterserv1 user:notice HACMP for AIX: EVENT COMPLETED: fail_standby masterserv2 192.200.192.53 0
Nov 21 01:40:34 masterserv1 daemon:notice topsvcs[8192030]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6zV5DL.GgpHK/DLG.o.Ama/……………….:::Reference ID:
:::Template ID: 173c787f:::Details File: :::Location: rsct,nim_control.C,1.39.1.41,6717 :::TS_LOC_DOWN_ST Possible malfunction on local adapter Adapter i
nterface name en0 Adapter offset 0 Adapter IP address 102.200.192.52
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: Called, state=ST_UNSTABLE, provider token 1
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GsToken 2, AdapterToken 3, rm_GsToken 1
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 announcementCb: GRPSVCS announcment code=512; exiting
Nov 21 01:40:36 masterserv1 local0:crit clstrmgrES[15925314]: Sat Nov 21 01:40:36 CHECK FOR FAILURE OF RSCT SUBSYSTEMS (topsvcs or grpsvcs)
Nov 21 01:40:36 masterserv1 daemon:err|error haemd[15204586]: LPP=PSSP,Fn=emd_gsi.c,SID=1.4.1.37,L#=1395, haemd: 2521-032 Cannot d
ispatch group services (1).
Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Unexpected termination of clstrmgrES.
Nov 21 01:40:36 masterserv1 user:notice HACMP for AIX: clexit.rc : Halting system immediately!!!
原因是補丁IV55293: HAGSD CORE DUMP WHEN IP NETWORKS LOST, 需要升級rsct文件集.
官網解釋:
http://www-01.ibm.com/support/docview.wss?uid=isg1IV55293
分享者:qb306
轉載請注明本頁網址:
http://www.snjht.com/jiaocheng/4308.html