Alibaba Cloud Linux 2系統(tǒng)的ECS實(shí)例無(wú)法正常刪除Pod,如何處理?
本文為您介紹Alibaba Cloud Linux 2系統(tǒng)的ECS實(shí)例無(wú)法正常刪除Pod的原因及解決方案。
問(wèn)題描述
在符合如下條件的Alibaba Cloud Linux 2系統(tǒng)的ECS實(shí)例中,出現(xiàn)無(wú)法正常刪除Pod的情況,進(jìn)程處于D狀態(tài)(不可中斷的睡眠狀態(tài))。
鏡像:Alibaba Cloud Linux 2.1903 LTS 64位
內(nèi)核:4.19.91-24.1.al7.x86_64及之前的內(nèi)核版本
系統(tǒng)進(jìn)程出現(xiàn)如下調(diào)用棧信息:
[<0>] __refrigerator+0x75/0x160
[<0>] do_exit+0x224/0xc60
[<0>] do_group_exit+0x3a/0xa0
[<0>] get_signal+0x156/0x8c0
[<0>] do_signal+0x36/0x610
[<0>] exit_to_usermode_loop+0x95/0x100
[<0>] do_syscall_64+0x178/0x1a0
[<0>] entry_SYSCALL_64_after_hwframe+0x44/0xa9
問(wèn)題原因
在進(jìn)程coredump發(fā)生前任務(wù)所在cgroup已經(jīng)被掛起,進(jìn)程coredump發(fā)生后所有線程進(jìn)入了exiting狀態(tài),cgroup遍歷會(huì)忽略此任務(wù),錯(cuò)過(guò)cgroup的恢復(fù),從而導(dǎo)致進(jìn)程無(wú)法退出,無(wú)法正常刪除Pod。
解決方案
當(dāng)遇到該問(wèn)題時(shí),您可以參考以下方案解決上述問(wèn)題。
登錄ECS實(shí)例。
具體操作,請(qǐng)參見(jiàn)連接方式概述。
執(zhí)行以下命令,確認(rèn)系統(tǒng)內(nèi)核版本適用此方案。
uname -r
系統(tǒng)顯示類(lèi)似如下。
4.19.91-18.al7.x86_64
更新內(nèi)核版本。
更新操作系統(tǒng)版本至最新的內(nèi)核版本。
yum update kernel
重啟服務(wù)器生效。
reboot
更新內(nèi)核熱補(bǔ)丁。
若最新內(nèi)核版本的操作系統(tǒng)同樣存在該問(wèn)題,請(qǐng)執(zhí)行以下命令,更新內(nèi)核熱補(bǔ)丁(內(nèi)核熱補(bǔ)丁名稱(chēng)為:cgroup:freeze: fix coredump & unfreeze conflict)。
yum install -y kernel-hotfix-3915544-`uname -r | awk -F"-" '{print $NF}'`