Casa > C > Como Ler O Arquivo Pdf Linha Por Linha Usando Python

Como ler o arquivo PDF linha por linha usando Python

Python pode ler arquivos PDF e imprimir o conteúdo depois de extrair o texto do mesmo. Para isso temos de instalar primeiro o módulo necessário que é o PyPDF2. Abaixo está o comando para instalar o módulo. You should have pip already installed in your python environment.

  1. pip install pypdf2 

On successful installation of this module we can read PDF files using the methods available in the module.

Reading Single Page

  1. import PyPDF2 
  2.  
  3. pdfName = 'path\xyz.pdf' 
  4. read_pdf = PyPDF2.PdfFileReader(pdfName) 
  5. page = read_pdf.getPage(0) 
  6. page_content = page.extractText() 
  7. print page_content 

When we run the above program, we get the output

Reading Multiple Pages

To read a pdf with multiple pages and print each of the page with a page number we use the a loop with getPageNumber() function. No exemplo abaixo temos o arquivo PDF que tem duas páginas. The contents are printed under two separate page headings.

  1. import PyPDF2 
  2.  
  3. pdfName = 'Path\xyz2.pdf' 
  4. read_pdf = PyPDF2.PdfFileReader(pdfName) 
  5.  
  6. for i in xrange(read_pdf.getNumPages()): 
  7. page = read_pdf.getPage(i) 
  8. print 'Page No - ' + str(1+read_pdf.getPageNumber(page)) 
  9. page_content = page.extractText() 
  10. print page_content 

Thanks for reading, and as always, be sure to reach out with any questions! Follow Jayasimha Kv

De Ryder

Como escrever uma candidatura para não frequentar a faculdade regularmente :: O que é a versão Android da Apple TV?