você está aqui: Home  → Arquivo de Mensagens

Conversão HTML -> TXT com Lynx

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 22 de Fevereiro de 2002

Para converter documentos no formato HTML para texto puro podemos usar o lynx, que é um browser Web que emprega o formato texto.

Podemos empregar a seguinte sintaxe:

lynx -dump -nolist arquivo.html

Se você quiser converter milhares de documentos, você pode tentar algo do tipo:

#!/bin/bash

for file in *.html
do
lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'``
done

ou ainda, para converter toda uma árvore de diretórios:

#!/bin/bash -x
 
for file in ``find . -type f -name \*html``
do
lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'``
done

Existem binários para diversas plataformas além do Unix, como Macintosh, Windows, VMS.

Mais informações sobre o Lynx podem ser encontradas em http://lynx.browser.org/



Veja a relação completa dos artigos de Rubens Queiroz de Almeida