Friday, July 31, 2009

Extract text dari file PDF

Setelah mencoba beberapa library (iTextSharp, PDFBox, dll) dan membaca beberapa artikel untuk meng-extract text dari file PDF, akhirnya saya mengambil kesimpulan PDFBox merupakan library yg paling bagus untuk keperluan ini. Sayangnya PDFBox merupakan library untuk Java, sehingga kita memerlukan library tambahan (IKVM) untuk menggunakannya di .NET Framework.

Contoh perintah menggunaan library tersebut adalah sebagai berikut

Imports Org.pdfbox.pdmodel
Imports Org.pdfbox.util

Public Class ReadPdf

Public Function ReadFromFile(ByVal PdfFileName As String) As String
Dim
doc As PDDocument = PDDocument.load(PdfFileName)
Dim stripper As New PDFTextStripper

Return stripper.getText(doc)

End Function

End Class

Library yang di butuhkan dapat di download melalui skydrive



http://blog.aerje.com

2 comments:

  1. Apakah PDFBox menyediakan fitur untuk melakukan ekstraksi style(bold, italic, underline) suatu font. Saya melihat penggunaan parse2html juga tidak dapat mengatasi hal tersebut.

    ReplyDelete
  2. PdfBox yg saya gunakan versi 0.7.2 sepertinya memang belum bisa mengenali text formating. Hasil dari extractnya berupa plain text.
    Coba gunakan teknik OCR utk mengambil text dan formatnya.

    ReplyDelete

Web Analytics