De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.
Obtenção de URLs de um documento
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 02 de Dezembro de 1999
Frequentemente eu me vejo na necessidade de fazer o download
de documentos referenciados em outros documentos. Ou seja,
eu preciso obter para download todos os documentos referenciados
em uma página html.
Uma aplicação que faz isto muito bem é o lynx, o browser
Web orientado a caracter. A primeira coisa a fazer é salvar
a página original, que contém os links desejados:
lynx -dump http://www.dicas-l.com.br/hotlinks/Linux/index.html > idx.html
Eu estou fazendo neste caso o download da página de hotlinks
sobre Linux da Dicas-L. Está página contém vários links de documentos
que me interessam. O lynx gera, no final do arquivo criado uma lista
de referências a todas as URLs encontradas no documento:
References
1. http://www.unicamp.br/ibest2000.html
2. http://www.dicas-l.com.br/
3. http://www.dicas-l.com.br/hotlinks/index.html
...
Primeiramente removo todas as linhas acima das referências e
em seguida faço uma análise dos links desejados, removo a numeração
no início da linha. Em seguida, através de um simples shell script, crio
um arquivo contendo todos os documentos que me interessam:
#!/bin/sh
for url in ""cat idx.html""
do
lynx -dump $url >> linux.txt
done
Todos os documentos são gravados, um após o outro, no
arquivo linux.txt. Basta imprimir então e levar para ler
onde lhe convier.
É claro que este método salva as páginas Web em formato
texto, mas neste caso o que interessa é o conteúdo, certo?
Certamente existem várias outras formas de se fazer isto,
possivelmente até mais simples. Sou todo ouvidos ;-)