Jsoup - htmlページからfaviconを取得する

Jsoup – htmlページからファビコンを取得する

favicons_collection1

Webブラウザでファビコンを認識する方法は多数あります。

例1

  
    
  

例2

  
    
  

例3 –奇妙ですが、Googleが使用しています。

  
    
  

1. Jsoupの例

Jsoupでファビコンの上に取得するためのコードスニペット。

    Element element = doc.head().select("link[href~=.*\\.(ico|png)]").first();
    System.out.println(element.attr("href"));
    Element element = doc.head().select("meta[itemprop=image]").first();
    System.out.println(element.attr("content"));

2. 単体テスト

単体テストの例。

package com.webmitta.analysis;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.testng.Assert;
import org.testng.annotations.Test;

@Test
public class TestFavIcon {

  Document document;

  private String PageProvider1() {

    StringBuffer html = new StringBuffer();

    html.append("");
    html.append("");
    html.append("");
    html.append("");
    html.append("");
    html.append("");
    html.append("something");
    html.append("");
    html.append("");

    return html.toString();

  }

  private String PageProvider2() {

    StringBuffer html = new StringBuffer();

    html.append("");
    html.append("");
    html.append("");
    html.append("");
    html.append("");
    html.append("");
    html.append("something");
    html.append("");
    html.append("");

    return html.toString();
  }

  @Test
  void test_FavIcon1() {

    Document doc = Jsoup.parse(PageProvider1());

    Element element = doc.head().select("link[href~=.*\\.(ico|png)]").first();
    Assert.assertEquals(element.attr("href"),
        "http://example.com/image.ico");

  }

  @Test
  void test_FavIcon2() {

    Document doc = Jsoup.parse(PageProvider2());

    Element element = doc.head().select("meta[itemprop=image]").first();
    Assert.assertEquals(element.attr("content"),
        "/images/google_favicon_128.png");

  }

}

出力

[TestNG] Running:
  C:\Users\example2002\AppData\Local\Temp\testng-eclipse--1846902117\testng-customsuite.xml

PASSED: test_FavIcon1
PASSED: test_FavIcon2