Não deixe um servidor (caro) desligado da tomada por muito tempo

Para mim isso é até contra-intuitivo pois eu acho que o lugar mais seguro para um equipamento caro que não está em uso é o depósito, desconectado da rede elétrica. O que vou descrever aqui foi um problema bizarro que encarei e ainda não estou certo de ter compreendido completamente. Mas minhas observações podem ser úteis para alguém que se deparar com os mesmos sintomas e se sinta tão perdido quanto eu estava.

O servidor é um monstrinho HPE Proliant ML350 Gen9. Daqueles que suportam dois processadores e 24 módulos de memória:

Eu não estou habituado a lidar com servidores desse porte até mesmo porque geralmente quando empresas começam a precisar de servidores assim, já precisam ter um técnico ou uma equipe deles trabalhando em tempo integral. Mas eu tenho um cliente que já foi uma empresa de grande porte e por isso ainda usa muito equipamento desse tipo, que é um exagero para o seu porte atual. Uma das tarefas que atribuí a mim mesmo quando peguei o serviço foi reduzir a complexidade do hardware, virtualizando tudo o que fosse possível. Então eu virtualizei este, que já estava mesmo com dois defeitos, e guardei a máquina para um dia que tivesse tempo de dar uma olhada nos problemas (o computador sempre travava ao ser reiniciado remotamente e meses depois a RAM que era de 24GB caiu para 16GB). Eu desliguei o servidor no dia 16 de julho e guardei no depósito.

Quando fui testar de novo pouco mais de três meses depois, no dia 22 de outubro, a surpresa: só entrou no Windows uma vez. No reboot seguinte já congelava durante o POST apresentando uma mensagem de erro que apesar de clara não justificava o problema:

312-HPE Smart Storage Battery 1 Failure – Communication with the battery failed. Its output may not be enabled.

Action: Verify battery is properly installed. Refer to user guide. Contact HPE support if condition persists.

Eu fiz uma pesquisa por esse erro e nada do que li explicava por que o servidor estava congelando durante o POST. Todas as pessoas relatando o erro o encontraram por acaso, investigando outros problemas.

O servidor também dava uma mensagem de erro de perda de configuração da controladora RAID:

Embedded Storage: Dynamic Smart Array B140i – Configuration Required

Mas esse erro já existia antes.

A bateria a que essa mensagem se refere não é a habitual CR2032, mas uma bateria similar às de notebook, escondida debaixo dos ventiladores (destaque em vermelho na foto).

Não havia uma relação direta entre meu problema e a bateria (e não explicava por que o servidor havia inicializado uma vez), mas como era minha única pista resolvi testar deixando o servidor ligado na tomada para ver se a bateria carregava. Eu já tinha visto baterias supostamente mortas “acordarem” após muita insistência. No dia seguinte o problema foi ligeiramente diferente: o servidor iniciou uma única vez, depois reiniciou sozinho enquanto eu não estava olhando e não iniciou mais. Na semana seguinte eu testei de novo: agora não iniciava nem uma única vez.  O danado continuava congelando durante o POST. Eu não tinha mais nada para fazer,  porque:

  1. Não fazia idéia de como desmontar para chegar até a bateria;
  2. A mensagem de erro sugere que o servidor se comunica com a bateria. Então simplesmente colocar outra com a mesma tensão nominal não ia resolver o problema. Tinha que ser uma bateria HPE e a empresa não tinha dinheiro para isso naquele momento. Eu não sei o modelo exato da bateria mas tem gente cobrando de R$1000 a R$2600 por uma (pense no tamanho da encrenca…);
  3. A empresa não precisava do servidor.

Deixei desligado, mas ainda propositalmente conectado a uma tomada em uma mesa da sala de TI e fui cuidar do resto dos problemas da empresa.

Pouco menos de dois meses depois, no dia 16 de dezembro, eu fui chamado porque faltara energia durante a madrugada na empresa e era preciso iniciar os servidores. Quando entrei na sala lá estava esse servidor ligado, parado na tela de logon do Windows. Impossível deixar de ver porque o monitor estava voltado para a porta.

Eu fiquei olhando para aquilo por um tempo tentando entender como era possível. Eu certamente não havia deixado esse servidor ligado e a sala era trancada a chave. Então fui olhar nos logs do Windows quando tinha acontecido. Fora às 4h51 do mesmo dia, provavelmente quando a energia voltou. O servidor simplesmente iniciou normalmente. Reiniciei mais de uma vez para testar e venho testando desde então. Problema aparentemente resolvido.

Minha conclusão até agora é que o congelamento no POST era causado mesmo pela bateria descarregada e que deixar quase dois meses na tomada conseguiu dar a carga que em uma semana não tinha conseguido. Mas se eu realmente tivesse precisado do servidor essa bateria teria me colocado numa encrenca danada.

 

 

VN:R_U [1.9.13_1145]
Rating: 0.0/5 (0 votes cast)
4 comentários
  • Marcelo Neuri Haag - 65 Comentários

    Mesmo servidor que temos, somente o nosso é Gen8. Mas em geral são muito bons! MAS… usa somente componentes, digamos “proprietários”. Anos atrás fiz um projeto com uma empresa para trocar os HDs SAS por SSD mas não foi pra frente: o SSD “genérico” (mesmo sendo de marcas consagradas) não foi aceito pelo hardware, mesmo com todas as atualizações de BIOS, firmwares, etc. Em contato com o suporte da HP descobrimos que tem que ser SSDs “proprietários” da HP, cujo custo proibitivo valeria a pena investir num novo servidor… a solução foi colocar mais HDs SAS e fazer RAID 10… e anos atrás tive que colocar um no-break online porque o senoidal normal (mesmo sendo da boa marca NHS) não conseguia chavear a tempo… mesmo uma simples queda de energia o servidor desligava (ou reiniciava, não me lembro agora)… suporte da HP de novo falou que tinha que ser um online… mas isso ainda quero tirar a prova de novo… ele tem duas fontes para redundância…

    VA:R_U [1.9.13_1145]
    Rating: 0.0/5 (0 votes cast)
    • Jefferson - 6.141 Comentários

      suporte da HP de novo falou que tinha que ser um online…

      Podia ser pior. Ainda bem que eles não fabricam no-break, senão provavelmente só poderia funcionar direito através de uma interface de comunicação proprietária.

      Parece absurdo, mas eu também acho absurdo você ter que usar um SSD HPE!

      VN:R_U [1.9.13_1145]
      Rating: 0.0/5 (0 votes cast)
  • Trabalharo Anonimo - 14 Comentários

    Eu tive um problema destes de bateria em servidor HP. No meu caso, a bateria era da controladora Raid,- comandava 24 HD. Esta bateria é utilizada para manter um buffer de dados, para evitar perda. Quando a bateria morre, a controladora não sobe, ai o servidor trava pois não consegue ler os HDs. No seu caso, acredito que a bateria não tenha morrido, só esgotado e a química levou um tempo para se recompor através da carga.

    VA:R_U [1.9.13_1145]
    Rating: 0.0/5 (0 votes cast)
    • Jefferson - 6.141 Comentários

      No meu caso não era possível dar boot nem pelo drive óptico SATA, nem pelas portas USB. A máquina congelava no POST. Isso certamente é um erro de projeto.

      VN:R_U [1.9.13_1145]
      Rating: 0.0/5 (0 votes cast)

Deixe um comentário

Siga as Regras de Participação, ou seu comentário será ignorado.

Não faça comentários sem relação com os posts. Comente neste post para assuntos genéricos

Você pode usar estas tags HTML

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

  

  

  

:) :( ;) O_o B) :lol: :huh: :S :D :-P 8-O :yahoo: :rtfm: :dashhead1: :clapping: more »