De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.

Obtenção de URLs de um documento

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 02 de Dezembro de 1999

Frequentemente eu me vejo na necessidade de fazer o download de documentos referenciados em outros documentos. Ou seja, eu preciso obter para download todos os documentos referenciados em uma página html.

Uma aplicação que faz isto muito bem é o lynx, o browser Web orientado a caracter. A primeira coisa a fazer é salvar a página original, que contém os links desejados:

  lynx -dump http://www.dicas-l.com.br/hotlinks/Linux/index.html > idx.html

Eu estou fazendo neste caso o download da página de hotlinks sobre Linux da Dicas-L. Está página contém vários links de documentos que me interessam. O lynx gera, no final do arquivo criado uma lista de referências a todas as URLs encontradas no documento:

  References
  
     1. http://www.unicamp.br/ibest2000.html
     2. http://www.dicas-l.com.br/
     3. http://www.dicas-l.com.br/hotlinks/index.html    
     ...

Primeiramente removo todas as linhas acima das referências e em seguida faço uma análise dos links desejados, removo a numeração no início da linha. Em seguida, através de um simples shell script, crio um arquivo contendo todos os documentos que me interessam:

  #!/bin/sh
  for url in ""cat idx.html""
  do
  lynx -dump $url >> linux.txt
  done

Todos os documentos são gravados, um após o outro, no arquivo linux.txt. Basta imprimir então e levar para ler onde lhe convier.

É claro que este método salva as páginas Web em formato texto, mas neste caso o que interessa é o conteúdo, certo?

Certamente existem várias outras formas de se fazer isto, possivelmente até mais simples. Sou todo ouvidos ;-)

Veja a relação completa dos artigos de Rubens Queiroz de Almeida