Logotipo Dicas-L, por Ricardo Burile

Busca

Visite também: Segurança Linux ·  UnderLinux ·  VivaOLinux ·  LinuxSecurity ·  NoticiasLinux ·  BR-Linux ·  SoftwareLivre.org ·  [mais]   
 

Você está aqui: Home  → Arquivo Dicas-L

 

Assine a Lista Dicas-L

Receba diariamente por email as dicas
de informática publicadas neste site
Para se descadastrar, clique aqui.

O Formato Deja Vu

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 12 de Junho de 2003

Recentemente eu estive na USP, onde tive a oportunidade de assistir a uma palestra do Prof. Imre Simon, do IME. Nesta palestra ele nos mostrou um novo formato para digitalização de documentos chamado "Deja Vu".

Djvu é um formato para distribuição de documentos com foco na web. Pode substituir com vantagens formatos como PDF, PS, TIFF, etc para a distribuição de documentos scaneados, documentos digitais ou imagens de alta resolução.

O Prof. Imre nos mostrou um exemplo do uso deste formato por meio de um livro chamado "Aspectos Teóricos da Computação", escrito por Cláudio L. Lucchesi, Imre Simon, Istvan Simon, Janos Simon e Tomasz Kowaltowski. O livro foi digitalizado e convertido para o formato Djvu.

O livro digitalizado, em formato PDF, ocupa 20MB, já o mesmo livro, no formato djvu ocupa apenas 4MB, um quinto do total. Outra grande vantagem em relação a outros formatos, o download não é feito do documento inteiro, mas de suas partes. No caso do PDF você só consegue ver o documento após o download dos 40MB. Já com o djvu as páginas são carregadas individualmente, o que gera um tempo de espera equivalente à carga de uma página html normal, talvez um pouco mais.

Outra coisa interessante, acoplando-se o djvu a um software de reconhecimento de caracteres, é possível fazer busca textual. O software de OCR empregado pelo Prof. Imre em seu livro foi o Clara OCR, que embora ainda não faça um reconhecimento 100% dos caracteres, certamente contribui para exibir inequivocamente a eficácia de tal solução.

O software realmente é fantástico e o número de aplicações possíveis e imagináveis é enorme.

Todo o software usado no processo descrito é software livre, o que inclui todos os utilitários necessários para criar e manusear o formato djvu.

Para saber mais, veja a página do projeto em http://djvu.sourceforge.net/

A página do Prof. Imre Simon, da USP, onde se pode ver o software em ação fica em http://www.ime.usp.br/~is/atc/index.html

O software Clara OCR, desenvolvido por Ricardo Ueda (http://www.ime.usp.br/~ueda/), é licenciado sob a GPL e pode ser baixado no endereço http://www.claraocr.org/

Veja a relação completa dos artigos de Rubens Queiroz de Almeida

Stumble Upon Digg This Del.icio.us Twitter Recomendar este artigo a um amigo Entre em contato Formato PDF
Newsfeed RSS
Formato para impressão
StumbleUpon Digg Del.icio.us Twitter Recomendar Contato PDF RSS Imprimir

Referências Adicionais

Referências adicionais sobre os assuntos abordados neste site podem ser encontradas em nossa Bibliografia.

Avalie esta dica

  • Currently 2.89/5
  • 1
  • 2
  • 3
  • 4
  • 5

Avaliação: 2.9 /5 (669 votos)

Opinião dos Leitores

Seja o primeiro a comentar este artigo
*Nome:
Email:
Me notifique sobre novos comentários nessa página
Oculte meu email
*Texto:
 
  Para publicar seu comentário, digite o código contido na imagem acima
 


Powered by Scriptsmill Comments Script
Guerreiro SEO: Técnicas Essenciais para Aumentar a Visibilidade na Web


Encontre imóveis, apartamentos e casas a venda no Imobilien
Saiba mais

Aprenda Inglês em Casa