você está aqui: Home  → Arquivo de Mensagens

Conversão HTML -> TXT

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 22 de Outubro de 1998

A maioria dos browsers Web provê mecanismos para conversão de documentos no formato html para o formato texto. O problema é que com os browsers gráficos tal processo tende a consumir um tempo enorme.

O Lynx, que é um browser Web orientado a caracter, possui uma flag que possibilita esta conversão diretamente a partir da linha de comando:

  % lynx -dump http://www.dicas-l.com.br > dicas.txt

O comando acima descarrega a página principal do servidor Web da lista Dicas-L e o grava no arquivo dicas.txt.

Caso queiramos descarregar um número maior de páginas, podemos incluí-las em um shell script e até mesmo automatizar a execução.

Maiores informações sobre o browser Lynx podem ser obtidas em http://www.cc.ukans.edu/lynx_help/Lynx_users_guide.html.



Veja a relação completa dos artigos de Rubens Queiroz de Almeida