De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.

Conversão HTML -> TXT

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 22 de Outubro de 1998

A maioria dos browsers Web provê mecanismos para conversão de documentos no formato html para o formato texto. O problema é que com os browsers gráficos tal processo tende a consumir um tempo enorme.

O Lynx, que é um browser Web orientado a caracter, possui uma flag que possibilita esta conversão diretamente a partir da linha de comando:

  % lynx -dump http://www.dicas-l.com.br > dicas.txt

O comando acima descarrega a página principal do servidor Web da lista Dicas-L e o grava no arquivo dicas.txt.

Caso queiramos descarregar um número maior de páginas, podemos incluí-las em um shell script e até mesmo automatizar a execução.

Maiores informações sobre o browser Lynx podem ser obtidas em http://www.cc.ukans.edu/lynx_help/Lynx_users_guide.html.

Adicionar comentário

* Campos obrigatórios
5000
Powered by Commentics

Comentários

Nenhum comentário ainda. Seja o primeiro!


Veja a relação completa dos artigos de Rubens Queiroz de Almeida