More

    Os erros da T-Mobile causaram paralisação nacional, mas a FCC não está punindo a operadora


    Prolongar / Anúncio da T-Mobile na Times Square de Nova York em 15 de outubro de 2020.

    Imagens Getty | Imagens SOPA

    A Comissão Federal de Comunicações concluiu as investigações da T-Mobile por uma falha na rede que o presidente Ajit Pai classificou de “inaceitável”. Mas, em vez de punir a operadora de telefonia móvel, a FCC está apenas emitindo um aviso público para “lembrar” as empresas de telefonia das “melhores práticas aceitas pela indústria” que poderiam ter evitado a interrupção da T-Mobile.

    Depois que a paralisação nacional de 12 horas em 15 de junho interrompeu os serviços de mensagens de texto e ligações, incluindo ligações de emergência para o 911, Pai escreveu que “a queda da rede T-Mobile é inaceitável” e que “a FCC está iniciando uma investigação. Estamos exigindo respostas – e os consumidores americanos também. “

    Pai tem uma história de falar duramente com os portadores e não seguir punições que podem ter um efeito de dissuasão maior do que advertências severas. Isso parece ser o que aconteceu novamente ontem, quando a FCC anunciou os resultados de sua investigação sobre a T-Mobile. Pai disse que “a queda da T-Mobile foi um fracasso” porque a operadora não seguiu as práticas recomendadas que poderiam ter evitado ou minimizado, mas ele anunciou nenhuma punição. O assunto parece estar encerrado com base no anúncio de ontem, mas entramos em contato com o escritório do presidente Pai hoje para perguntar se há alguma punição para a T-Mobile. Atualizaremos este artigo se recebermos uma resposta.

    FCC detalha erros da T-Mobile

    O relatório de investigação da equipe identificou vários erros cometidos pela T-Mobile durante a interrupção, que começou quando a T-Mobile estava instalando novos roteadores no sudeste dos Estados Unidos. Quando um link de transporte de fibra na região falhou, a rede da T-Mobile deveria ter transferido o tráfego por um link diferente. Mas a operadora “configurou incorretamente o peso dos links para um de seus roteadores”, o que “impediu que o tráfego fluísse para o novo roteador ativo conforme pretendido”. A T-Mobile não implementou nenhum processo à prova de falhas para evitar a configuração incorreta ou para alertar os engenheiros de rede sobre o problema.

    O mercado de Atlanta “ficou isolado” do resto da rede, fazendo com que todos os usuários de LTE na área perdessem a conectividade. Um erro de software piorou as coisas ao impedir que os dispositivos móveis na área de Atlanta se registrassem novamente no IP Multimedia Subsystem por Wi-Fi. Em vez de rotear as tentativas de registro de dispositivo para um nó diferente, “o sistema de registro roteava repetidamente as tentativas de novo registro de cada dispositivo móvel para o último nó retido em seus registros, que não estava disponível devido ao isolamento do mercado”.

    O erro de software já existia na rede da T-Mobile há meses. “Este erro de software provavelmente não causou problemas antes da interrupção ocorrer porque a interrupção foi o primeiro isolamento notável do mercado desde que a T-Mobile integrou este software em sua rede”, disse a FCC. Testes regulares “poderiam ter descoberto a falha de software e a configuração incorreta de roteamento antes que pudessem afetar as chamadas ao vivo”, disse a FCC.

    Depois que os problemas em 15 de junho começaram, os engenheiros da T-Mobile “acabaram exacerbando [the outage’s] impacto porque diagnosticaram erroneamente o problema. “O relatório da FCC continuou:

    A T-Mobile acreditava que o link de transporte de fibra que falhou no início do dia continuava a causar a interrupção contínua. Agindo com base nessa crença, a T-Mobile desligou manualmente o link em uma tentativa de transferir o tráfego para longe dele. Devido aos pesos do Open Shortest Path First ainda mal configurados, no entanto, essas etapas recriaram as condições iniciais da interrupção. Os clientes LTE no mercado de Atlanta foram novamente desconectados da rede LTE e forçados a estabelecer chamadas por Wi-Fi, e suas tentativas de registro falharam novamente e criaram uma tempestade de registro que adicionou mais congestionamento ao subsistema de multimídia de IP da T-Mobile.

    Os engenheiros da T-Mobile quase imediatamente reconheceram que haviam diagnosticado o problema incorretamente. No entanto, eles não conseguiram resolver o problema restaurando o link porque as ferramentas de gerenciamento de rede necessárias para fazer isso remotamente dependiam dos mesmos caminhos que haviam acabado de desativar. Quando os engenheiros da T-Mobile conseguiram acessar o equipamento no local e corrigir o erro restaurando o link uma hora depois, os clientes no mercado de Atlanta puderam novamente tentar se registrar no VoLTE [Voice over LTE]. No entanto, isso novamente criou congestionamento adicional porque os engenheiros da T-Mobile ainda não haviam resolvido o erro de software que impedia a conclusão dos registros.

    Interrupção em todo o país

    O relatório da FCC explicou como a interrupção se espalhou do mercado de Atlanta, indo para todo o país. O tráfego externo destinado ao sistema de Atlanta foi redirecionado para outras regiões, o que “criou congestionamento suficiente nesses sistemas de registro para fazer com que a rede da T-Mobile enviasse as tentativas de registro para outros nós. O erro de software novamente encaminhou as tentativas de novo registro para o último nó registrado, que provavelmente já estava passando por um congestionamento grave. ” Pouco depois, “os registros do IP Multimedia Subsystem, VoLTE e Voice over Wi-Fi começaram a falhar em todo o país”.

    A grande maioria dos clientes da T-Mobile não conseguiu se conectar às redes Voice over LTE ou Voice over Wi-Fi e, portanto, “voltou às redes 3G e 2G da T-Mobile para fazer e receber chamadas enquanto o dispositivo continuava seu registro tentativas para a rede VoLTE. ” Isso resultou em congestionamento de 3G e 2G, causando falhas em muitas ligações. Os nós de rede continuaram a reter recursos para essas sessões de chamadas após o término das chamadas, sobrecarregando os recursos de computação dos nós e causando ainda mais falhas de chamadas.


    Artigos Recentes

    É assim que vamos nos fundir com a IA

    A relação entre humanos e IA é uma espécie de dança. Nós e a IA nos aproximamos operando de forma colaborativa, então...

    Miniusuários do Apple HomePod com problemas graves de Wi-Fi

    Alguns usuários do Apple HomePod mini estão relatando um problema com a conectividade Wi-Fi, com apenas uma correção temporária em jogo. Um tópico nos...

    A tecnologia está transformando o setor de seguros

    A indústria de seguros, por muito tempo, foi impulsionada por modelos de negócios tradicionais. Ela continuou seu processo de negócios e produtos...

    A promessa e o desafio do futuro da Roblox na China

    Em uma mudança muito esperada, a empresa de jogos Roblox, com sede na Califórnia arquivado para ir a público na semana passada....

    Artigos Relacionados

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui