|
分類:[.NET 全般]
itextsharpを使用して、PDFファイルからテキストを抽出したいのですが、 ライセンスの問題から、itextSharp4.1.6(ちょっと古すぎますか?)を考えています。 itextSharp4.1.6後のコードは、ありましたが、 4.1.6では、以下の行でエラーとなります。 Imports iTextSharp.text.pdf.parser ←この行でエラーとなります。
そもそも、4.1.6では、テキストの抽出は不可能なのでしょうか? 使用環境は、Visual studio2022、VB.Net、Win10 ページの取得までは達しましたが、先のテキスト抽出の助言が頂きたいと思っています. もう一歩の所のため、宜しくお願いいたします
Imports iTextSharp.text Imports iTextSharp.text.pdf 'Imports iTextSharp.text.pdf.parser ←エラーのためコメントアウト
Dim pdfTxt As StringBuilder = New StringBuilder Dim pageTxt As String Dim row() As String Dim pdfRd As PdfReader = New PdfReader("C:\PDF_sample.pdf")
Dim parser = New PdfContentParser(New PRTokeniser(pdfRd.GetPageContent(2))) For page As Integer = 1 To pdfRd.NumberOfPages
'pageTxt = PdfTextExtractor.GetTextFromPage(pdfRd, page, New LocationTextExtractionStrategy) ←エラーのためコメントアウト 'row = pageTxt.Split(vbCrLf) 'またはpageTxt.Split(Chr(10)) ←エラーのためコメントアウト 'For i As Integer = 0 To row.Length - 1 ←エラーのためコメントアウト ' pdfTxt.Append(row(i)) ←エラーのためコメントアウト 'Next Next pdfRd.Close() Console.WriteLine(pdfTxt.ToString) MessageBox.Show("テキスト出力完了")
|