[C#]C#으로 PDF 파일 안의 텍스트를 추출

728x90

1. 첨부된 압축파일을 풀어서, itextsharp.dll 파일을 참조추가한다.

2. 아래와 같이 텍스트를 추출한다.

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

using System.IO;
namespace PdfToText
{
    class Program
    {
        static void Main(string[] args)
        {
            string content = ExtractTextFromPdf("PDF파일전체경로지정");
            Console.WriteLine(content);
        }

        static string ExtractTextFromPdf(string pdfFile)
        {
            StringBuilder result = new StringBuilder();
            using (Stream newpdfStream = new FileStream(pdfFile, FileMode.Open, FileAccess.Read))
            {
                PdfReader pdfReader = new PdfReader(newpdfStream);

                for (int i = 1; i <= pdfReader.NumberOfPages; i++)
                {
                    result.Append(PdfTextExtractor.GetTextFromPage(pdfReader, i, new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy())).Append("\r\n\r\n");
                }
            }

            return result.ToString();
        }
    }
}

itextsharp.zip

1.35MB

'개발언어 > C#' 카테고리의 다른 글

[C#] 폴더 내에 있는 모든 엑셀파일에서 문자열 찾기 (0)	2022.09.16
[C#] 폴더 내에 있는 모든 파워포인트 문서에서 문자열 찾기 (0)	2022.09.16
C# Microsoft.Office.Interop.Word 사용하여 만든 프로그램 배포시 에러 나는 경우 (0)	2022.09.16
[C#] WinForm Word 문서 만들기 #3 (0)	2022.09.16
[C#] WinForm Word 문서 만들기 #2 (1)	2022.09.16

개발이야기

[C#]C#으로 PDF 파일 안의 텍스트를 추출

'개발언어 > C#' 카테고리의 다른 글

티스토리툴바

[C#]C#으로 PDF 파일 안의 텍스트를 추출

'개발언어 > C#' 카테고리의 다른 글

관련글

티스토리툴바