De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.
O Formato Deja Vu
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 12 de Junho de 2003
Recentemente eu estive na USP, onde tive a oportunidade de assistir a
uma palestra do Prof. Imre Simon, do IME. Nesta palestra ele nos mostrou
um novo formato para digitalização de documentos chamado "Deja Vu".
Djvu é um formato para distribuição de documentos com foco na web.
Pode substituir com vantagens formatos como PDF, PS, TIFF, etc
para a distribuição de documentos scaneados, documentos digitais
ou imagens de alta resolução.
O Prof. Imre nos mostrou um exemplo do uso deste formato por meio de
um livro chamado "Aspectos Teóricos da Computação", escrito por Cláudio
L. Lucchesi, Imre Simon, Istvan Simon, Janos Simon e Tomasz Kowaltowski.
O livro foi digitalizado e convertido para o formato Djvu.
O livro digitalizado, em formato PDF, ocupa 20MB, já o mesmo livro,
no formato djvu ocupa apenas 4MB, um quinto do total. Outra grande vantagem
em relação a outros formatos, o download não é feito do documento inteiro,
mas de suas partes. No caso do PDF você só consegue ver o documento
após o download dos 40MB. Já com o djvu as páginas são carregadas
individualmente, o que gera um tempo de espera equivalente à carga
de uma página html normal, talvez um pouco mais.
Outra coisa interessante, acoplando-se o djvu a um software de
reconhecimento de caracteres, é possível fazer busca textual. O software
de OCR empregado pelo Prof. Imre em seu livro foi o Clara OCR, que embora
ainda não faça um reconhecimento 100% dos caracteres, certamente contribui
para exibir inequivocamente a eficácia de tal solução.
O software realmente é fantástico e o número de aplicações possíveis e
imagináveis é enorme.
Todo o software usado no processo descrito é software livre, o que
inclui todos os utilitários necessários para criar e manusear o
formato djvu.
Para saber mais, veja a página do projeto em http://djvu.sourceforge.net/
A página do Prof. Imre Simon, da USP, onde se pode ver o software em
ação fica em http://www.ime.usp.br/~is/atc/index.html
O software Clara OCR, desenvolvido por Ricardo Ueda
(http://www.ime.usp.br/~ueda/), é licenciado sob a GPL e pode ser baixado
no endereço http://www.claraocr.org/