viernes, 29 de junio de 2012

XSCF - Alarmas del sistema


Si en uno de nuestros servidores Sun, aparece el led de alarma iluminado, deberemos investigar que es lo que ocurre, puede que haya algún hardware dañado y que sea necesario reparar.

Los servidores Sun de la serie MXXXX, incluyen un hardware (XSCF) para controlar, configurar y supervisar el servidor.

El XSCF proporciona una linea de comandos para ejecutar todas las operaciones, también es posible acceder al XSCF a través de un navegador web, siempre y cuando se haya habilitado. Desde este interface como ya hemos comentado podemos monitorizar, configurar y controlar todo el Hardware del servidor, localmente y remotamente si configuramos el interfaz de red.

A continuación vamos a ver algunos comandos básicos para obtener mas información acerca de los alarmas que nos está dando el servidor.

Para ver el estado general del sistema lo haremos con showstatus, en nuestro caso la alarma que vemos en el chassis es por el XSCFU que está en estado degradado.


XSCF> showstatus
*   XSCFU Status:Degraded;


Para ver el log de errores, podemos usar el comando "showlogs error" o "fmdump", vamos a ver los dos con diferentes opciones para que nos muestre mas información. Nuestro problema es "A hard-to-diagnose failure of the XSCF has occurred."

XSCF> showlogs error
Date: May 07 11:18:43 UTC 2012     Code: 60000000-c201faff-011d001200000000
    Status: Warning                Occurred: May 07 11:18:37.456 UTC 2012
    FRU: /XSCFU,/FIRMWARE
    Msg: XSCF watchdog timeout
Date: Jun 28 17:42:38 UTC 2012     Code: 60000000-feff0000-0104250100000000
    Status: Warning                Occurred: Jun 28 17:42:38.700 UTC 2012
    FRU: /ENVIRONMENT
    Msg: High temperature at air inlet

XSCF> fmdump -m
MSG-ID: SCF-8006-YS, TYPE: upset, VER: 1, SEVERITY: Minor
EVENT-TIME: Mon May  7 11:18:43 UTC 2012
PLATFORM: SPARC Enterprise M4000, CSN: BCF102222D, HOSTNAME: SERVER-ADM
SOURCE: sde, REV: 1.16
EVENT-ID: ced395a2-85c3-42db-8bb0-801d40086d10
DESC: A hard-to-diagnose failure of the XSCF has occurred.
Refer to http://www.sun.com/msg/SCF-8006-YS for more information.
AUTO-RESPONSE: The XSCFU will reboot. If the configuration has redundant XSCFU's, the standby XSCFU
may take over as the active XSCFU.
IMPACT: The XSCFU will reboot. If the configuration has redundant XSCFU's, the standby XSCFU
may take over as the active XSCFU. There is no impact to the domains.
REC-ACTION: Please consult the detail section of the knowledge article for additional information.

MSG-ID: SCF-8006-3J, TYPE: Fault, VER: 1, SEVERITY: Critical
EVENT-TIME: Thu Jun 28 17:42:38 UTC 2012
PLATFORM: SPARC Enterprise M4000, CSN: BCF102222D, HOSTNAME: SERVER-ADM
SOURCE: sde, REV: 1.16
EVENT-ID: 39f21a38-d3b2-4620-999f-8a5a564ef6b8
DESC: Over-temperature warning condition has been detected by inlet temperature sensor, exhaust temperature
sensor, or CPU temperature sensor.
Refer to http://www.sun.com/msg/SCF-8006-3J for more information.
AUTO-RESPONSE: Fan speed will be raised for all fans on the platform. If the over-temperature warning
condition has been detected by an exhaust temperature sensor or a CPU temperature sensor, shutdown
messages will be sent to domains on the platform.
IMPACT: If the over-temperature warning condition has been detected by an exhaust temperature
sensor or a CPU temperature sensor, shutdown messages will be sent to domains on the platform.
REC-ACTION: Platform administrator should investigate the cause of the over-temperature condition.
Please consult the detail section of the knowledge article for additional information.

Con el EVENT-ID que nos ha dado el comando anterior podemos obtener mas información acerca del hardware que está fallando.

XSCF> fmdump -v -u ced395a2-85c3-42db-8bb0-801d40086d10
TIME                 UUID                                 MSG-ID
May 07 11:18:43.6383 ced395a2-85c3-42db-8bb0-801d40086d10 SCF-8006-YS
  100%  upset.chassis.SPARC-Enterprise.xscfu

        Problem in: hc:///chassis=0/xscfu=0
           Affects: -
               FRU: hc://:product-id=SPARC Enterprise M4000:chassis-id=BCF102222D:server-id=SERVER-ADM:serial=BF10074DTH:part=CF00541-0481 04   \541-0481-04:revision=0101/component=/XSCFU_B#0
          Location: /XSCFU_B#0

Si hacemos un check de todo el hardware del sistema veremos marcado con un "*" el problema.

XSCF> showhardconf
SPARC Enterprise M4000;
    + Serial:BCF102222D; Operator_Panel_Switch:Locked;
    + Power_Supply_System:Single; SCF-ID:XSCF#0;
    + System_Power:On; System_Phase:Cabinet Power On;
    Domain#0 Domain_Status:Running;

    MBU_A Status:Normal; Ver:0101h; Serial:BC10090C0C  ;
        + FRU-Part-Number:CF00541-0893 08   /541-0893-08          ;
        + Memory_Size:32 GB;
        CPUM#0-CHIP#0 Status:Normal; Ver:0501h; Serial:PP100705UJ  ;
            + FRU-Part-Number:CA06761-D204 B1   /371-4615-02          ;
            + Freq:2.530 GHz; Type:32;
            + Core:4; Strand:2;
        CPUM#0-CHIP#1 Status:Normal; Ver:0501h; Serial:PP100705UJ  ;
            + FRU-Part-Number:CA06761-D204 B1   /371-4615-02          ;
            + Freq:2.530 GHz; Type:32;
            + Core:4; Strand:2;
        MEMB#0 Status:Normal; Ver:0101h; Serial:BF100744E8  ;
            + FRU-Part-Number:CF00541-0545 09   /541-0545-09          ;
            MEM#0A Status:Normal;
                + Code:ce0000000000000001M3 93T5660QZA-CE6 4151-439dd600;
                + Type:2A; Size:2 GB;
            MEM#0B Status:Normal;
                + Code:ce0000000000000001M3 93T5660QZA-CE6 4151-439dd630;
                + Type:2A; Size:2 GB;
            MEM#1A Status:Normal;
                + Code:ce0000000000000001M3 93T5660QZA-CE6 4151-439e7e02;
                + Type:2A; Size:2 GB;
            MEM#1B Status:Normal;
                + Code:ce0000000000000001M3 93T5660QZA-CE6 4151-439dfb4a;
                + Type:2A; Size:2 GB;
            MEM#2A Status:Normal;
                + Code:ce0000000000000001M3 93T5660QZA-CE6 4151-43a00ff0;
                + Type:2A; Size:2 GB;
            MEM#2B Status:Normal;
                + Code:ce0000000000000001M3 93T5660QZA-CE6 4151-43a00fd1;
                + Type:2A; Size:2 GB;
            MEM#3A Status:Normal;
                + Code:ce0000000000000001M3 93T5660QZA-CE6 4151-522ca0bf;
                + Type:2A; Size:2 GB;
            MEM#3B Status:Normal;
                + Code:ce0000000000000001M3 93T5660QZA-CE6 4151-439dd5fb;
                + Type:2A; Size:2 GB;
        MEMB#1 Status:Normal; Ver:0101h; Serial:BF0951JN81  ;
            + FRU-Part-Number:CF00541-0545 09   /541-0545-09          ;
            MEM#0A Status:Normal;
                + Code:ad0000000000000001HYMP125P72CP4-Y5  4141-3e823576;
                + Type:2A; Size:2 GB;
            MEM#0B Status:Normal;
                + Code:ad0000000000000001HYMP125P72CP4-Y5  4141-3e327188;
                + Type:2A; Size:2 GB;
            MEM#1A Status:Normal;
                + Code:ad0000000000000001HYMP125P72CP4-Y5  4141-3e42718c;
                + Type:2A; Size:2 GB;
            MEM#1B Status:Normal;
                + Code:ad0000000000000001HYMP125P72CP4-Y5  4141-3e22719f;
                + Type:2A; Size:2 GB;
            MEM#2A Status:Normal;
                + Code:ad0000000000000001HYMP125P72CP4-Y5  4141-3e52358c;
                + Type:2A; Size:2 GB;
            MEM#2B Status:Normal;
                + Code:ad0000000000000001HYMP125P72CP4-Y5  4141-3e42718e;
                + Type:2A; Size:2 GB;
            MEM#3A Status:Normal;
                + Code:ad0000000000000001HYMP125P72CP4-Y5  4141-3e22719e;
                + Type:2A; Size:2 GB;
            MEM#3B Status:Normal;
                + Code:ad0000000000000001HYMP125P72CP4-Y5  4141-3e82358c;
                + Type:2A; Size:2 GB;
        DDC_A#0 Status:Normal;
        DDC_A#1 Status:Normal;
        DDC_B#0 Status:Normal;
    IOU#0 Status:Normal; Ver:0101h; Serial:BF100852C9  ;
        + FRU-Part-Number:CF00541-2240 05   /541-2240-05          ;
        DDC_A#0 Status:Normal;
        DDCR Status:Normal;
            DDC_B#0 Status:Normal;
        PCI#1 Name_Property:SUNW,emlxs; Card_Type:Other;
        PCI#2 Name_Property:network; Card_Type:Other;
*   XSCFU Status:Degraded,Active; Ver:0101h; Serial:BF10074DTH  ;
        + FRU-Part-Number:CF00541-0481 04   /541-0481-04          ;
    OPNL Status:Normal; Ver:0101h; Serial:BF10063ENT  ;
        + FRU-Part-Number:CF00541-0850 06   /541-0850-06          ;
    PSU#0 Status:Normal; Serial:0017527-1005028791;
        + FRU-Part-Number:CF00300-2011 0250 /300-2011-02-50;
        + Power_Status:On; AC:200 V;
    PSU#1 Status:Normal; Serial:0017527-1005028785;
        + FRU-Part-Number:CF00300-2011 0250 /300-2011-02-50;
        + Power_Status:On; AC:200 V;
    FAN_A#0 Status:Normal;
    FAN_A#1 Status:Normal;
    FANBP_B Status:Normal; Ver:0401h; Serial:BF10063T4V  ;
        + FRU-Part-Number:CF00541-3098 01   /541-3098-01          ;
        FAN_B#0 Status:Normal;
        FAN_B#1 Status:Normal;

Con toda la información que hemos obtenido, podemos encontrar una posible solución buscando en metalink con el MSG-ID o contactar directamente con tu proveedor de servicios.

3 comentarios:

  1. Como inicio sesion de XSCF? desde ssh? o como solano_200@hotmail.com

    ResponderEliminar
    Respuestas
    1. Hola Juan, puedes conectarte al XSCF de tu maquina Sun desde el puerto de consola, que lo encontrarás en la parte posterior, es un conector RJ45 como uno de red, necesitarás un cable RJ45 a COM para conectarlo en un puerto serie de tu equipo. Una vez ya hayas podido entrar podrás habilitar el acceso al XSCF por ssh, podrás acceder por red siempre y cuando conectes el puerto de red del XSCF a tu red.

      Un saludo,

      Eliminar
  2. Hola Victor, muchas gracias por la información. Una consulta, tengo en la XSCF encendido el led de falla, en showstatus aparece * XSCFU Status:Degraded; En showlogs error aparece:
    Status: Warning
    FRU: /IOU#0/PCI#3,/IOU#0
    Msg: PCICH link up failed

    En un estado anterior (antes de un reset) la placa PCI#3 estaba con falla y me lo indicaba con el led de la placa en color ambar, actualmente el led de la placa esta en verde. Es posible que la condición de falla no se haya actualizado en la XSCF y que por eso este alarmado y en estado degraded, dado que si efectivamente estuviera con falla la placa PCI #3 no debería indicarmelo en el led de la propia placa? Se puede sacar a la XSCF del estado degraded? Desde ya muchas gracias. Saludos
    Felipe

    ResponderEliminar