본문 바로가기
개발언어/C#

[C#]C#으로 PDF 파일 안의 텍스트를 추출

by 창용이랑 2022. 9. 16.
728x90

1. 첨부된 압축파일을 풀어서, itextsharp.dll 파일을 참조추가한다.

 

2. 아래와 같이 텍스트를 추출한다.

 

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

using System.IO;
namespace PdfToText
{
    class Program
    {
        static void Main(string[] args)
        {
            string content = ExtractTextFromPdf("PDF파일전체경로지정");
            Console.WriteLine(content);
        }

        static string ExtractTextFromPdf(string pdfFile)
        {
            StringBuilder result = new StringBuilder();
            using (Stream newpdfStream = new FileStream(pdfFile, FileMode.Open, FileAccess.Read))
            {
                PdfReader pdfReader = new PdfReader(newpdfStream);

                for (int i = 1; i <= pdfReader.NumberOfPages; i++)
                {
                    result.Append(PdfTextExtractor.GetTextFromPage(pdfReader, i, new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy())).Append("\r\n\r\n");
                }
            }

            return result.ToString();
        }
    }

 

itextsharp.zip
1.35MB