Logotipo Dicas-L, por Ricardo Burile

Busca

Visite também: UnderLinux ·  VivaOLinux ·  LinuxSecurity ·  NoticiasLinux ·  BR-Linux ·  SoftwareLivre.org ·  [mais]   
 

Você está aqui: Home  → Arquivo Dicas-L

 

Mão na Massa - LDAP

Assine a Lista Dicas-L

Receba diariamente por email as dicas
de informática publicadas neste site
Para se descadastrar, clique aqui.

Extraindo os dominios de sites improprios para bloqueio no proxy.

Colaboração: Fabio Maximo

Data de Publicação: 31 de December de 2008

Algumas vezes simplesmente bloquear uma lista gigante de sites improprios pode não ser é suficiente. As vezes essas listas mostram mais sites internacionais que nacionais, então um nivel adicional de alimentação desses dados é necessário.

No meu caso eu precisava checar os logs para identificar os sites que estão sendo acessados como alternativa aos ja bloqueados e que os mesmos fossem progressivamente bloqueados.

Dureza fazer manualmente, ne?

Então segue a solução para essa necessidade que eu tinha.

  zcat /path/to/log | egrep -f /etc/squid/palavraschavepornografia | awk '{print $7}' | sed 's/http:\/\///' | sed 's/\/.*$//' | sort | uniq -c 

Vamos por partes?? Nessa parte omitirei o | (pipe).

  1. Como o arquivo estara compactado, uso um zcat no mesmo e mando o conteudo pelo "encanamento" :-D

      zcat /path/to/log  
    

  2. Uso um egrep -f para que cada linha do arquivo indicado pelo parametro f forneça um padrão para a busca. Nesse arquivo então coloco uma lista de palavras chulas que serão procuradas nas URLs. Uma URL que contenha por exemplo xxx provavelmente tera o conteudo que aparenta.

      egrep -f /etc/squid/palavraschavepornografia | 
    

  3. Uso então o awk para que apenas a url seja enviada ao proximo comando. Dependendo do formato do log, talvez a coluna seja outra.

      awk '{print $7}' 
    

  4. Agora retiro o http:// da URL.

      sed 's/http:\/\///' 
    

  5. Retiro oque vem no final da url (afinal eu quero somente o dominio, para que o bloqueio seja mais abrangente

      sed 's/\/.*$//' 
    

  6. Uso então o sort para ordenar. Na verdade eu quero que ele coloque as ocorrencias iguais uma apos a outra, em preparação para o uniq, que ira exibir apenas uma ocorrencia de cada. Para efeito de anailise, o -c me mostra quantas vezes cada dominio apareceu no log.

      sort | uniq -c 
    

    Essa saida eu mandei para um arquivo com o nome do dia anterior, e então ao final isso é enviado para meu e-mail.

    Poderiamos fazer o bloqueio automaticamente, porem uma url legitima poderia ter uma palavra suspeita. Por exeplo um artigo sobre "sexo na terceira idade", que tivesse sua url reescrita faria com que um portal de saúde fosse automaticamente bloqueado, o que não é a intenção.

Veja a relação completa dos artigos de Fabio Maximo

Stumble Upon Digg This Del.icio.us Twitter Recomendar este artigo a um amigo Entre em contato Formato PDF
Newsfeed RSS
Formato para impressão
StumbleUpon Digg Del.icio.us Twitter Recomendar Contato PDF RSS Imprimir

Referências Adicionais

Referências adicionais sobre os assuntos abordados neste site podem ser encontradas em nossa Bibliografia.

Avalie esta dica

  • Currently 3.06/5
  • 1
  • 2
  • 3
  • 4
  • 5

Avaliação: 3.1 /5 (207 votos)

Opinião dos Leitores

Ivan Apolonio
31 Dez 2008, 05:22
Muito bom! Parabéns pela dica.
irado
19 Dez 2008, 10:55
ótima dica :)
*Nome:
Email:
Me notifique sobre novos comentários nessa página
Oculte meu email
*Texto:
 
  Para publicar seu comentário, digite o código contido na imagem acima
 


Powered by Scriptsmill Comments Script

English for Reading and Listening
Enriqueça o seu vocabulário recebendo diariamente mensagens divertidas em inglês, com áudio em MP3.
Saiba mais

Anúncio provido pelo BuscaPé