Como quantificar/representar um Petabyte?

1 07 2011

Esta pergunta pode ser colocada logo a partir do momento em que começamos a pensar em processos de tratamento de dados que dêem origem a quantidades verdadeiramente grandes de informação.

Tomando como ponto de partida o volume de informação gerado no CERN pelo LHC (Large Hadron Collider), o qual atinge um Petabyte de dados por cada segundo de operação, surgem de imediato várias perguntas colaterais: todos esses dados são guardados? Se não são, como é feita a sua selecção e avaliação? Qual é a natureza da infra-estrutura tecnológica necessária para os manter ao longo do tempo?

Tudo o que seja quantificável em Petabytes situa-se, neste momento do tempo, no limite superior daquilo que é tecnicamente gerível. Por simples acumulação de dados, é possível atingir volumes destas dimensões – veja-se o arquivo de dados sobre clima, mantido em Hamburgo, na Alemanha, com uma dimensão de 60 Petabytes. Ou seja, tal como é possível conceber a existência de uma Biblioteca ou de um Arquivo com dimensões gigantescas (bastando para tal adicionar mais uma prateleira/estante/sala/edifício com livros/pastas/documentos), também é possível conceber a existência de bases de dados com dezenas ou centenas de Petabytes, até se atingir a unidade seguinte (1024 Petabytes fazem um Exabyte) e recomeçar a contagem.

Dispensando considerações acessórias sobre a conveniência de uma tal acumulação, ou sobre as regras que presidiram à sua realização, restam as soluções técnicas para disponibilizar Petabytes de dados rapidamente. Convém desde já relembrar que os 60 Petabytes mantidos na Alemanha são preservados em fita magnética – bem vistas as coisas, trata-se de uma forma mais prática e económica de guardar informação a esta escala. A alternativa, manter dados permanentemente online, em disco rígido, é possível, embora assustadoramente dispendiosa – um Petabyte de espaço em disco, para armazenamento empresarial, pode rondar um milhão de euros (este preço é meramente indicativo, muda com frequência, varia de acordo com relações contratuais pré-existentes, é alterado em função do valor do dólar, etc). Dentro das ofertas dos fabricantes, uma mesma família de equipamentos costuma (ainda) permitir apenas guardar *só* um ou dois Petabytes (note-se o eufemismo). Necessidades de multi-Petabytes exigem muito investimento, interligação de equipamentos, ou desenvolvimento de soluções próprias.

Como visualizar fisicamente um Petabyte? Podemos fazê-lo por comparação:

  1. Peguem num PC com espaço para, pelo menos, 6 discos rígidos de 3,5″;
  2. Encham esse PC com seis discos rígidos de 3 Terabytes, para atingir uma capacidade nominal de 18 Terabytes num só computador;
  3. Repitam os passos 1. e 2. 56 vezes, isto é, arranjem 57 PCs, cada um com 18 Terabytes de disco. Parabéns, acabaram de arranjar um Petabyte de espaço de armazenamento.

Quantos aos preços desta configuração…  cerca de 1000 euros para os 6 discos rígidos, cerca de 500 euros para um PC que os contenha: 1500 euros para 18 Terabytes. Multiplicado por 57 fica em pouco mais de 85000 euros. Arranjar um Petabyte por este preço é fantástico, sobretudo quando comparado com as centenas de milhares de euros das soluções empresariais. O problema é que estes 57 PCs apresentariam, no total, cerca de 1 Petabyte de espaço em disco. Mas cada PC seria uma ilha, os seus 18 Terabytes seriam locais. Mesmo gastando mais um pouco para os interligar em rede de qualquer forma, o problema mantinha-se: como possibilitar o uso de todos estes discos de uma forma unificada, para que fosse possível, no limite, ter um único disco rígido com a capacidade de 1 Petabyte?

A vantagem de uma qualquer solução empresarial, é a de responder facilmente a este género de perguntas. Ao comprar uma solução como a que pode ser vista neste vídeo, para suportar um máximo de 2 Petabytes, as opções de controlo associadas permitem segmentar esse espaço na quantidade de discos lógicos que for necessária.

Os dois vídeos aqui mostrados (o das fitas magnéticas alemãs e o do armazenamento em disco) oferecem duas vias complementares para atingir o mesmo objectivo, guardar muita informação. Ainda não é realista manter 60 Petabytes online, de forma permanente – a sua colocação em fita magnética faz todo o sentido. Ao mesmo tempo, certas bases de dados ou operações de processamento têm que garantir acesso e disponibilização constantes – as fitas magnéticas não servem, os discos rígidos são essenciais.

Foram precisos 24 anos desde a invenção do disco rígido, para se ultrapassar a barreira do Gigabyte (em 1956 a invenção pela IBM, em 1980 a apresentação de um modelo com 2,5 GB, também pela IBM). 27 anos depois, foi ultrapassada a barreira do Terabyte (pela Hitachi, em 2007). Desde então para cá, a capacidade dos discos rígidos tem duplicado em cada dois anos (estando previstos discos de 4 Terabytes até final deste ano). Se este ritmo continuar, por volta de 2019 teremos um Petabyte num único disco rígido. Pessoalmente, acredito que vai ser antes dessa data.





Tecnologias aplicadas [...] / 11ª e 12ª aulas, 11 de Maio

20 05 2011

ksPD – Kit de Sensibilização à Preservação Digital. O paradigma da computação em nuvem. As exigências levantadas pelos Arquivos Electrónicos: persistência de formatos e tecnologias, segurança de sistemas de informação, preservação de suportes de informação, auditoria em sistemas de informação. Condições de preservação e segurança – o caso extremo dos data havens. O futuro – um panorama de mudança.

Slides das 11ª  e 12ª aulas





Tecnologias aplicadas [...] / 10ª aula, 4 de Maio

20 05 2011

Condições de preservação de informação. Guia prático para destruir suportes de armazenamento de informação. As soluções relacionadas com a existência e continuidade de um arquivo electrónico.

Slides da 10ª aula





Tecnologias aplicadas [...] / 9ª aula, 27 de Abril

20 05 2011

Manutenção de formatos de codificação e armazenamento de informação. Que formatos para quê? – adequação de formatos ao uso que lhes é dado. A importância transversal dos backups (cópias de segurança).

Slides da 9ª aula








Seguir

Get every new post delivered to your Inbox.