Contoh perintah menggunaan library tersebut adalah sebagai berikut
Imports Org.pdfbox.pdmodel
Imports Org.pdfbox.util
Public Class ReadPdf
Public Function ReadFromFile(ByVal PdfFileName As String) As String
Dim doc As PDDocument = PDDocument.load(PdfFileName)
Dim stripper As New PDFTextStripper
Return stripper.getText(doc)
End Function
End Class
Library yang di butuhkan dapat di download melalui skydrive
http://blog.aerje.com
Apakah PDFBox menyediakan fitur untuk melakukan ekstraksi style(bold, italic, underline) suatu font. Saya melihat penggunaan parse2html juga tidak dapat mengatasi hal tersebut.
ReplyDeletePdfBox yg saya gunakan versi 0.7.2 sepertinya memang belum bisa mengenali text formating. Hasil dari extractnya berupa plain text.
ReplyDeleteCoba gunakan teknik OCR utk mengambil text dan formatnya.