você está aqui: Home  → Arquivo de Mensagens

Conversão HTML -> TXT com Lynx

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 22 de Fevereiro de 2002

Para converter documentos no formato HTML para texto puro podemos usar o lynx, que é um browser Web que emprega o formato texto.

Podemos empregar a seguinte sintaxe:

  lynx -dump -nolist arquivo.html

Se você quiser converter milhares de documentos, você pode tentar algo do tipo:

  #!/bin/bash
  
  for file in *.html
  do
  lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'``
  done

ou ainda, para converter toda uma árvore de diretórios:

  #!/bin/bash -x
   
  for file in ``find . -type f -name \*html``
  do
  lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'``
  done

Existem binários para diversas plataformas além do Unix, como Macintosh, Windows, VMS.

Mais informações sobre o Lynx podem ser encontradas em http://lynx.browser.org/



Veja a relação completa dos artigos de Rubens Queiroz de Almeida

 

 

Opinião dos Leitores

Seja o primeiro a comentar este artigo
*Nome:
Email:
Me notifique sobre novos comentários nessa página
Oculte meu email
*Texto:
 
  Para publicar seu comentário, digite o código contido na imagem acima
 


Powered by Scriptsmill Comments Script