Aerje info: for yesterday, today, and tomorrow: Extract text dari file PDF

Friday, July 31, 2009

Extract text dari file PDF

Setelah mencoba beberapa library (iTextSharp, PDFBox, dll) dan membaca beberapa artikel untuk meng-extract text dari file PDF, akhirnya saya mengambil kesimpulan PDFBox merupakan library yg paling bagus untuk keperluan ini. Sayangnya PDFBox merupakan library untuk Java, sehingga kita memerlukan library tambahan (IKVM) untuk menggunakannya di .NET Framework.

Contoh perintah menggunaan library tersebut adalah sebagai berikut

Imports Org.pdfbox.pdmodel
Imports Org.pdfbox.util

Public Class ReadPdf

Public Function ReadFromFile(ByVal PdfFileName As String) As String
    Dim doc As PDDocument = PDDocument.load(PdfFileName)
    Dim stripper As New PDFTextStripper

    Return stripper.getText(doc)

End Function

End Class

Library yang di butuhkan dapat di download melalui skydrive

http://blog.aerje.com

2 comments:

SteveAugust 7, 2009 at 11:16 AM
Apakah PDFBox menyediakan fitur untuk melakukan ekstraksi style(bold, italic, underline) suatu font. Saya melihat penggunaan parse2html juga tidak dapat mengatasi hal tersebut.
ReplyDelete
Replies
Eka SinggihAugust 7, 2009 at 12:32 PM
PdfBox yg saya gunakan versi 0.7.2 sepertinya memang belum bisa mengenali text formating. Hasil dari extractnya berupa plain text.
Coba gunakan teknik OCR utk mengambil text dan formatnya.
ReplyDelete
Replies

Add comment

Friday, July 31, 2009

Extract text dari file PDF

2 comments:

Clock

Translate

Search This Blog

Category

Blog Archive

Website

Find us on Facebook

Visitor No

NetworkedBlogs

Nian Nian You Yu

Friday, July 31, 2009

Extract text dari file PDF

2 comments:

Clock

Subscribe To

Translate

Search This Blog

Category

Blog Archive

Website

Find us on Facebook

Visitor No

NetworkedBlogs

Nian Nian You Yu