Arquivamento e indexação de documentos digitais
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 23 de Janeiro de 2006
A Biblioteca Digital da Unicamp é hoje um importante portal para a
disseminação do conhecimento gerado na universidade. Segundo dados de
janeiro de 2006, estão disponíveis para download cerca de 6307 teses e
dissertações e aproximadamente 13.000 outros tipos de documentos
(periódicos eletrônicos, material de congressos, seminários e outros).
Esta biblioteca utiliza o sistema Nou-Rau para armazenamento e
indexação de documentos digitais. Este sistema foi planejado
originalmente para possibilitar a criação de repositórios digitais,
mantidos por voluntários através da Internet.
De forma resumida, a funcionalidade do sistema Nou-Rau consiste em
receber documentos digitais em diversos formatos, convertê-los para
texto puro e, em seguida, indexá-los com o software htdig, que é
também usado para fazer consulta à base de dados. Este indexador, que
é uma das partes mais importantes do sistema, foi também utilizado por
muitos anos para fazer a indexação dos websites da Unicamp, e provou sua
funcionalidade em diversas situações. O htdig, quando consultado, retorna
uma página onde os documentos são analisados em relação à sua relevância
quanto às palavras-chave fornecidas. Durante o processo de cadastramento de
um documento no sistema Nou-Rau, é necessário fornecer algumas informações
que serão utilizadas mais tarde na criação do índice do sistema, como nome
do autor, palavras-chave, descrição do documento. O índice criado pelo htdig
é composto por esta página de informações e do texto completo do documento
digital. Na busca realizada pelo htdig, as informações de cadastro do
documento têm relevância superior à do seu conteúdo.
O sistema Nou-Rau possui uma estrutura hierárquica de tópicos. O
administrador do sistema tem várias opções de configuração para cada
tópico. Cada tópico pode ser configurado para aceitar arquivos em um
formato pré-determinado (PDF, Postscript, planilhas, etc.) e também
pode impor limites ao tamanho desses documentos.
Como o sistema foi projetado para ser usado através da Internet, de
forma colaborativa (onde a maior parte dos colaboradores não são
conhecidos), foi desenvolvido um sistema de aprovação de documentos.
Os documentos podem ser inseridos no sistema por voluntários que
tenham realizado seu cadastro. Após a submissão, os documentos ficam
aguardando a aprovação de um dos mantenedores do sistema. Este passo é
necessário para evitar que o repositório digital veicule documentos
protegidos por direito autoral. Adicionalmente, documentos sujeitos a
infecção por vírus, precisam passar por um passo adicional: a inspeção
por um software antivírus. Somente após estas verificações, o
documento é publicado.
Como seu desenvolvimento original previa sua ampla utilização em
diversos contextos, evitou-se oferecer um número excessivo de recursos
que tornassem seu uso e configuração complicados. O objetivo básico
foi apenas oferecer um sistema computadorizado para armazenar e
indexar o conteúdo de documentos digitais. Sua utilização pela Unicamp
no projeto de sua biblioteca digital manteve praticamente intacto seu
núcleo principal. Foram acrescentados módulos que permitiram a
comunicação do sistema Nou-Rau com sistemas de bibliotecas
tradicionais. O sistema Nou-Rau possui hoje módulos que lhe permitem a
comunicação através do protocolo Z39.50, que é um padrão
norte-americano que estabelece regras para que dois sistemas se
comuniquem e troquem informações. Com este novo módulo, o sistema
Nou-Rau realiza a captura da informação de cadastro de uma tese ou
dissertação diretamente do sistema de bibliotecas da Unicamp, evitando
desta forma a redigitação das informações de cadastro do documento.
Dentro da Unicamp, o sistema Nou-Rau é utilizado em dois outros
projetos: a biblioteca de documentos sobre software livre e a
biblioteca da equipe de suporte técnico ao ensino a distância.
As aplicações possíveis do sistema Nou-Rau são imensas. Pode ser usado
em qualquer situação onde se necessite armazenar e consultar o
conteúdo de documentos digitais. Em intranets, armazenando documentos
técnicos, atas de reuniões, projetos, discussões, documentos pessoais,
em escolas, em jornais.
Este sistema ilustra um dos pilares básicos da comunidade de software
livre: o compartilhamento de conhecimento. Apenas a programação em PHP
que implantou a metodologia do sistema foi desenvolvida do zero. Todos
os demais componentes (indexador, banco de dados, conversores) foram
obtidos de projetos livres. Desde o início do projeto se tentou
identificar produtos que pudessem nos ajudar a chegar ao nosso
objetivo final.
Nenhuma programação foi feita para reproduzir a funcionalidade de
componentes livres já existentes. Esta diretriz básica reduziu
consideravelmente o tempo de desenvolvimento do sistema. Podemos dizer
que o principal mérito do sistema Nou-Rau foi identificar soluções em
software livre de boa qualidade e integrá-las de forma harmoniosa. Da
mesma forma, como se beneficiou de diversas iniciativas e idéias da
comunidade de software livre, o sistema Nou-Rau também é livre e
licenciado sob a licença GPL. Nosso objetivo é que seja empregado por
um grande número de instituições, colaborando para o compartilhamento
de conhecimento e evoluindo a partir das colaborações da comunidade.