1. 첨부된 압축파일을 풀어서, itextsharp.dll 파일을 참조추가한다.
2. 아래와 같이 텍스트를 추출한다.
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System.IO;
namespace PdfToText
{
class Program
{
static void Main(string[] args)
{
string content = ExtractTextFromPdf("PDF파일전체경로지정");
Console.WriteLine(content);
}
static string ExtractTextFromPdf(string pdfFile)
{
StringBuilder result = new StringBuilder();
using (Stream newpdfStream = new FileStream(pdfFile, FileMode.Open, FileAccess.Read))
{
PdfReader pdfReader = new PdfReader(newpdfStream);
for (int i = 1; i <= pdfReader.NumberOfPages; i++)
{
result.Append(PdfTextExtractor.GetTextFromPage(pdfReader, i, new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy())).Append("\r\n\r\n");
}
}
return result.ToString();
}
}
}
'개발언어 > C#' 카테고리의 다른 글
[C#] 폴더 내에 있는 모든 엑셀파일에서 문자열 찾기 (0) | 2022.09.16 |
---|---|
[C#] 폴더 내에 있는 모든 파워포인트 문서에서 문자열 찾기 (0) | 2022.09.16 |
C# Microsoft.Office.Interop.Word 사용하여 만든 프로그램 배포시 에러 나는 경우 (0) | 2022.09.16 |
[C#] WinForm Word 문서 만들기 #3 (0) | 2022.09.16 |
[C#] WinForm Word 문서 만들기 #2 (1) | 2022.09.16 |