PDFBox - Lesen von PDF-Dateien in Java
Dieser Artikel zeigt Ihnen, wie Sie mitApache PDFBox eine PDF-Datei in Java lesen.
1. Holen Sie sich PDFBox
pom.xml
org.apache.pdfbox pdfbox 2.0.6
2. PDF-Datei drucken
Beispiel zum Extrahieren des gesamten Textes aus einer PDF-Datei.
ReadPdf.java
package com.example; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import org.apache.pdfbox.text.PDFTextStripperByArea; import java.io.File; import java.io.IOException; public class ReadPdf { public static void main(String[] args) throws IOException { try (PDDocument document = PDDocument.load(new File("/path-to/abc.pdf"))) { document.getClass(); if (!document.isEncrypted()) { PDFTextStripperByArea stripper = new PDFTextStripperByArea(); stripper.setSortByPosition(true); PDFTextStripper tStripper = new PDFTextStripper(); String pdfFileInText = tStripper.getText(document); //System.out.println("Text:" + st); // split by whitespace String lines[] = pdfFileInText.split("\\r?\\n"); for (String line : lines) { System.out.println(line); } } } } }
Note
Weitere Beispiele finden Sie inpdfbox
svn