PDFBox – JavaでPDFファイルを読み取る方法
この記事では、Apache PDFBoxを使用してJavaでPDFファイルを読み取る方法を示します。
1. PDFBoxを入手
pom.xml
org.apache.pdfbox pdfbox 2.0.6
2. PDFファイルを印刷する
PDFファイルからすべてのテキストを抽出する例。
ReadPdf.java
package com.example; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import org.apache.pdfbox.text.PDFTextStripperByArea; import java.io.File; import java.io.IOException; public class ReadPdf { public static void main(String[] args) throws IOException { try (PDDocument document = PDDocument.load(new File("/path-to/abc.pdf"))) { document.getClass(); if (!document.isEncrypted()) { PDFTextStripperByArea stripper = new PDFTextStripperByArea(); stripper.setSortByPosition(true); PDFTextStripper tStripper = new PDFTextStripper(); String pdfFileInText = tStripper.getText(document); //System.out.println("Text:" + st); // split by whitespace String lines[] = pdfFileInText.split("\\r?\\n"); for (String line : lines) { System.out.println(line); } } } } }
Note
その他の例については、このpdfbox
svnを参照してください。