Acesso direto ao conteúdo
Logotipo Dicas-L, por Ricardo Burile

Busca

Visite também: Segurança Linux ·  UnderLinux ·  VivaOLinux ·  LinuxSecurity ·  NoticiasLinux ·  BR-Linux ·  SoftwareLivre.org ·  [mais]   
 

Você está aqui: Home  → Arquivo Dicas-L

 

Curso de Inglês Online

Assine a Lista Dicas-L

Receba diariamente por email as dicas
de informática publicadas neste site
Para se descadastrar, clique aqui.

Obtenção de URLs de um documento

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 02 de Dezembro de 1999

Frequentemente eu me vejo na necessidade de fazer o download de documentos referenciados em outros documentos. Ou seja, eu preciso obter para download todos os documentos referenciados em uma página html.

Uma aplicação que faz isto muito bem é o lynx, o browser Web orientado a caracter. A primeira coisa a fazer é salvar a página original, que contém os links desejados:

  lynx -dump http://www.dicas-l.com.br/hotlinks/Linux/index.html > idx.html

Eu estou fazendo neste caso o download da página de hotlinks sobre Linux da Dicas-L. Está página contém vários links de documentos que me interessam. O lynx gera, no final do arquivo criado uma lista de referências a todas as URLs encontradas no documento:

  References
  
     1. http://www.unicamp.br/ibest2000.html
     2. http://www.dicas-l.com.br/
     3. http://www.dicas-l.com.br/hotlinks/index.html    
     ...

Primeiramente removo todas as linhas acima das referências e em seguida faço uma análise dos links desejados, removo a numeração no início da linha. Em seguida, através de um simples shell script, crio um arquivo contendo todos os documentos que me interessam:

  #!/bin/sh
  for url in ""cat idx.html""
  do
  lynx -dump $url >> linux.txt
  done

Todos os documentos são gravados, um após o outro, no arquivo linux.txt. Basta imprimir então e levar para ler onde lhe convier.

É claro que este método salva as páginas Web em formato texto, mas neste caso o que interessa é o conteúdo, certo?

Certamente existem várias outras formas de se fazer isto, possivelmente até mais simples. Sou todo ouvidos ;-)

Veja a relação completa dos artigos de Rubens Queiroz de Almeida

Formato PDF
Newsfeed RSS
Formato para impressão
PDF RSS Imprimir

Referências Adicionais

Referências adicionais sobre os assuntos abordados neste site podem ser encontradas em nossa Bibliografia.

Avalie esta dica

  • Currently 2.98/5
  • 1
  • 2
  • 3
  • 4
  • 5

Avaliação: 3.0 /5 (1051 votos)

Opinião dos Leitores

Seja o primeiro a comentar este artigo
*Nome:
Email:
Me notifique sobre novos comentários nessa página
Oculte meu email
*Texto:
 
  Para publicar seu comentário, digite o código contido na imagem acima
 


Powered by Scriptsmill Comments Script

Treinamentos, Consultorias e Soluçoes em TI. Baseados em softwares livres e padrões abertos para ambientes de missão crítica

Submarino.com.br

As Palavras Mais Comuns da Língua Inglesa (2ª edição)