Quanto tempo leva para fazer backup de toda a base de dados do Facebook, de forma incremental ou não? Com que frequência é feito o backup?
Para responder a essa pergunta, tenho que te dizer o que significa "grandes dados". Grandes dados são tão grandes que não cabem em um computador. Às vezes você precisa de centenas ou até milhares de computadores para armazená-los ou processá-los.
Imagine fazer o backup dos seus próprios dados em casa. Todas aquelas fotos, vídeos, MP3s, o primeiro rascunho do seu romance, um monte de ebooks... digamos que você tem 1 TB de dados. Quanto tempo é que isso demora, com um disco rígido rápido? Podem ser minutos a horas.
Quantos dados tem o Facebook? De acordo com o Techcrunch em 2012, o Facebook estava processando mais de 500 TB por dia. Então não há tempo para "fazer backup" de nada. Só não é assim que os dados grandes funcionam. Então, o que fazer?
Os dados mais grandes são armazenados em uma plataforma chamada Hadoop®, que é projetada para armazenar e processar quantidades muito grandes de dados. O Hadoop roda em um grupo de computadores (dez, cem, mil, dez mil ou mais!) e basicamente faz esse grupo de computadores agir como um único supercomputador gigantesco.
Em vez de "fazer backup" de grandes dados, o Hadoop os armazena de uma forma que tolera falhas. Porquê? Porque se você tiver 1.000 servidores com 10 discos rígidos cada (sim, realmente) e um disco rígido falhar a cada três anos em média, então você terá 10 discos rígidos falhando por dia! Você não pode esperar horas e horas por um backup e esperar que você esteja pegando os dados certos. Você não tem tempo para fazer um backup. E com 500 TB por dia, você não pode fazer um backup tão rápido quanto os dados estão chegando!
Hadoop resolve o problema armazenando várias (geralmente 3) cópias de cada pedaço de dado. Ele gerencia suas localizações e as mantém em servidores diferentes em racks diferentes para que se um rack inteiro cair você ainda tenha uma cópia dos dados. Quando uma falha inevitavelmente ocorre e discos rígidos ou servidores são substituídos, ele replica os dados para que haja sempre 3 cópias.
Agora, para a sua pergunta original: O que o Facebook faz? Bem, eu não trabalho lá há alguns anos, então eu não posso dizer o que eles fazem hoje. Mas eles inventaram uma plataforma de armazenamento de dados chamada Hive que roda em cima do Hadoop, então minha aposta é que eles ainda estão usando isso. A colmeia funciona da forma que descrevi acima, com dados replicados armazenados no Hadoop.
Artigos semelhantes
- Qual é a diferença entre uma base de dados tradicional e uma base de dados moderna?
- Como recuperar dados do Android após um reset de fábrica se não tiver sido feito o backup
- No meu Android Studio, não consigo ver a minha base de dados na minha pasta de dados. O que eu devo fazer?
- Quais são os horários para postar no Facebook e por que o Facebook não permite postagens atrasadas no Facebook por um determinado tempo?