ESXi 8.0 U2 / U3 환경에서 Mellanox NIC을 사용하는 경우, 드라이버가 NIC 디바이스의 Faulty status를 잘못 판단하여 디바이스의 작동이 중단되는 문제가 있다.
해당 이슈가 발생할 경우, vmkernel.log
파일에서 다음과 같은 로그 메시지를 확인할 수 있다.
vmkernel: cpu82:2098506)<NMLX_ERR> nmlx5_core: 0000:b1:00.1: Health: Miss counters detected
vmkernel: cpu82:2098506)<NMLX_INF> Device internal error state is set
vmkernel: cpu82:2098506)<NMLX_INF> assertVar[0] 0x00000000
vmkernel: cpu82:2098506)<NMLX_INF> assertVar[1] 0x00000000
vmkernel: cpu82:2098506)<NMLX_INF> assertVar[2] 0x00000000
vmkernel: cpu82:2098506)<NMLX_INF> assertVar[3] 0x00000000
vmkernel: cpu82:2098506)<NMLX_INF> assertVar[4] 0x00000000
vmkernel: cpu82:2098506)<NMLX_INF> assertExitPtr 0x00000000
vmkernel: cpu82:2098506)<NMLX_INF> assertCallra 0x00000000
vmkernel: cpu82:2098506)<NMLX_INF> firmwareVersion 0x00000000
vmkernel: cpu82:2098506)<NMLX_INF> hwId 0x00000000
vmkernel: cpu82:2098506)<NMLX_INF> iriscIndex 0
vmkernel: cpu82:2098506)<NMLX_INF> synd 0x0: unrecognized error
vmkernel: cpu82:2098506)<NMLX_INF> extSynd 0x0000
vmkernel: cpu82:2098506)<NMLX_INF> driver 4.23.6.2
vmkernel: cpu82:2098506)<NMLX_INF> nmlx5_core: 0000:b1:00.1: Health: thread is stopped 0x4314fc44e4c8
vmkernel: cpu60:2098467)<NMLX_WRN> nmlx5_core: vmnic1: nmlx5_en_UpdateStatsWork - (nmlx5_core_en_main.c:1848) Device internal error state is set! Stop updating
드라이버의 동작 중단이 영향을 미치는 범위는 한 번에 하나의 포트로 한정되며, 듀얼 포트 NIC의 경우, 두 개의 포트가 동시에 문제를 일으키지 않는 이상 트래픽 이중화 구성에 영향을 주지는 않을 것으로 판단된다.
이 문제는 Known Issue로, KB 383247에서 자세한 내용을 확인할 수 있다.
ESXi의 Mellanox inbox 드라이버를 4.24.0.7
버전 이상으로 업데이트 한다. 이 글이 작성된 시점 (2025년 2월 19일)을 기준으로, ESXi 8.0 U3의 최신 버전인 EP4의 드라이버 버전은 4.23.6.2
이며, 드라이버 패치가 반영된 이미지는 공식적으로 릴리즈 되지 않았다.
Broadcom Support에서는 현재 시점 기준, 내부적으로 P05 패치는 준비되었으나, 공식적으로 릴리즈되려면 시간이 좀 더 필요할 것이라는 의견을 밝혔다. 공식적으로 패치가 릴리즈 될 때 까지는 VM을 내보낸 뒤 ESXi를 다시 시작하는 임시 방편으로 대응할 수 밖에 없다.