star_xin 发表于 2013-2-1 17:20:04

唉,ESX主机又连不上了,里面VM一切正常,求正确的诊断及处理流程

运行了快半年的ESX Server 4.1 用 vsphere client 又连不上了。通过SSH还是可以连的上的。
目前里面的虚拟机VMs 都还正常。
之前同样的情况用过
service mgmt-vmware restart
service vmware-vpxa restart
恢复过一次
但是有两次没有成功,还造成里面的虚拟机都无法访问
/var/log 里面可以查看到些什么诊断信息呢? 或者可以看哪些信息确认问题的发生的原因呢?
否则里面一台台虚拟机关机、重启、开应用需要耗费大量的时间

TiGi 发表于 2013-2-1 17:42:37

你的主机负荷(包括CPU、内存、网络等)高不高?

jar 发表于 2013-2-1 19:33:11

4.1更新到最新了吗?
曾经有个版本的4.1的tcp栈有bug, half-link切断后文件描述符不会释放,等文件描述符用光后vc和vclient就连不上了。
如果已经是最新版本的4.1就只好慢慢查log了。
我这里的几台4.1很稳定,没有任何问题的说。

seanlaser 发表于 2013-2-1 20:06:40

我这里的已经没有4.1了,目前5.0中。不过运行4.1一直没有遇到Lz的情况.会不会和特定的网卡/交换机/设定组合有关?

TiGi 发表于 2013-2-1 20:30:57

本帖最后由 TiGi 于 1-2-2013 20:32 编辑
4.1的时候,我遇到过类似的情况,主要是持续负荷大了之后 —— 当然,我遇到类似的问题后,好像重启代理就能搞定;能够管理后,我将VM迁移、重启主机...... —— 似乎和Jar说的原因有点关系,负荷大之后文件描述符用光。

star_xin 发表于 2013-2-1 20:06:00


负载还可以的~ ,就是内存占用很高。 授权分配的内存36G ,物理机内存32G。
“等文件描述符用光后vc和vclient就连不上了” 这个是哪个版本的,情况看起来有点像。
重启代理之前我试过,解决过问题。但是有可能造成 vm 失去响应。 看KB上面说重启代理,如果设置了虚拟机自动关闭和自动启动,重启代理的时候会影响这些虚拟机?

eltonfive 发表于 2013-2-1 21:35:12

如果症状是:
vSphere client 不能直接连接ESX host host 或者vSphere Client 直接连接 ESX host
或者 vCenter Server里面ESX host 无响应

在 ESX host上 /var/log/vmware/hostd.log ,可以看到类似:
Num handlers (320) exceed max allowed (320). Throttling accept
New proxy client SSL(TCP(local=192.168.10.230:58661, peer=192.168.10.231:443))
Num handlers (320) exceed max allowed (320). Throttling accept
用这个Kb试试
http://kb.vmware.com/selfservice ... ;externalId=1038478

TiGi 发表于 2013-2-1 20:30:00


当初,我的三台主机内存是72、144、288,因此如果288这这台需要升级/维护的时候,另外两台(尤其是72那台)的内存负荷比例就会比较高了。
当初,三台机器72那台相对容易发生问题,而288那台好像没有发生过。

seanlaser 发表于 2013-2-1 21:53:04

本帖最后由 seanlaser 于 1-2-2013 22:04 编辑
这个么叫内存超负荷啊,我一般都保持系统不到报警的内存用量。而且Vm除了分配的内存以外还需要一定比例的内存虚拟化开销。因此别想什么32G全Vm可用什么的。
虽然VMware支持一些over的用法,但是这绝对不是推荐的做法吧,Vm会遭遇频繁的气球和回收进程,这对于主机来说是额外的开销啊

jar 发表于 2013-2-1 21:59:59


记不清有问题的是哪个版本了,不过可以肯定4.1 U3没有这个问题。
我的3台服务器升级到4.1U3后就再没有重新启动过,已经运行122天。

seanlaser 发表于 2013-2-1 21:35:00


有意思,这个Kb说的是ESX主机和 vClient间存在额外的防火墙产品会把闲置连接中断掉并且不通知主机,而这在ESX主机端却是个开放连接,这从而导致了SSL连接无法正确关闭而连接数堆积到上限就再也连不上。

star_xin 发表于 2013-2-1 22:01:45


hostd.log 里面 内容如下:
Section for VMware ESX, pid=3217, version=4.1.0, build=build-260247, option=Release
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
HostCtl exception Unable to complete Sysinfo operation.Please see the VMkernel log file for more details.
Ticket issued for CIMOM version 1.0, user root
应该不是连接数超过320的问题吧

star_xin 发表于 2013-2-1 21:35:00


恩,我已经蛮注意分配内存不超过物理内存了。但是实在腾不出来。。。

netnova2012 发表于 2013-2-1 22:05:14

我有一台都运行了522天了

star_xin 发表于 2013-2-1 21:35:00

偶的155天。。。版本看来还是有点老。等新的设备到了后更新掉它!
# uptime
22:55:56 up 155 days,1:16,1 user,load average: 0.45, 0.22, 0.12
# vmware -v
VMware ESX 4.1.0 build-260247
#
页: [1] 2
查看完整版本: 唉,ESX主机又连不上了,里面VM一切正常,求正确的诊断及处理流程