Casa > Q > Quanto Tempo Leva Para Fazer Backup De Toda A Base De Dados Do Facebook, De Forma Incremental Ou Não? Com Que Frequência É Feito O Backup?

Quanto tempo leva para fazer backup de toda a base de dados do Facebook, de forma incremental ou não? Com que frequência é feito o backup?

Para responder a essa pergunta, tenho que te dizer o que significa "grandes dados". Grandes dados são tão grandes que não cabem em um computador. Às vezes você precisa de centenas ou até milhares de computadores para armazená-los ou processá-los.

Imagine fazer o backup dos seus próprios dados em casa. Todas aquelas fotos, vídeos, MP3s, o primeiro rascunho do seu romance, um monte de ebooks... digamos que você tem 1 TB de dados. Quanto tempo é que isso demora, com um disco rígido rápido? Podem ser minutos a horas.

Quantos dados tem o Facebook? De acordo com o Techcrunch em 2012, o Facebook estava processando mais de 500 TB por dia. Então não há tempo para "fazer backup" de nada. Só não é assim que os dados grandes funcionam. Então, o que fazer?

Os dados mais grandes são armazenados em uma plataforma chamada Hadoop®, que é projetada para armazenar e processar quantidades muito grandes de dados. O Hadoop roda em um grupo de computadores (dez, cem, mil, dez mil ou mais!) e basicamente faz esse grupo de computadores agir como um único supercomputador gigantesco.

Em vez de "fazer backup" de grandes dados, o Hadoop os armazena de uma forma que tolera falhas. Porquê? Porque se você tiver 1.000 servidores com 10 discos rígidos cada (sim, realmente) e um disco rígido falhar a cada três anos em média, então você terá 10 discos rígidos falhando por dia! Você não pode esperar horas e horas por um backup e esperar que você esteja pegando os dados certos. Você não tem tempo para fazer um backup. E com 500 TB por dia, você não pode fazer um backup tão rápido quanto os dados estão chegando!

Hadoop resolve o problema armazenando várias (geralmente 3) cópias de cada pedaço de dado. Ele gerencia suas localizações e as mantém em servidores diferentes em racks diferentes para que se um rack inteiro cair você ainda tenha uma cópia dos dados. Quando uma falha inevitavelmente ocorre e discos rígidos ou servidores são substituídos, ele replica os dados para que haja sempre 3 cópias.

Agora, para a sua pergunta original: O que o Facebook faz? Bem, eu não trabalho lá há alguns anos, então eu não posso dizer o que eles fazem hoje. Mas eles inventaram uma plataforma de armazenamento de dados chamada Hive que roda em cima do Hadoop, então minha aposta é que eles ainda estão usando isso. A colmeia funciona da forma que descrevi acima, com dados replicados armazenados no Hadoop.

De Range

Quais são os prós e os contras dos telefones Samsung e iPhones? :: Porque é que o Facebook demora tanto tempo a 'Descarregar as Suas Informações'?