leer y pdf y extraer datos
- goosfancito
- Posts: 1955
- Joined: Fri Oct 07, 2005 7:08 pm
leer y pdf y extraer datos
Hola.
Una empresa nos envía archivos en PDF con datos que necesito extraer, como ser: nombre, dirección, productos, etc. esta empresa. no nos envía en formato XML solo en PDF. Hay alguna manera de poder extraer datos de ese PDF? o transformar ese PDF en XML?
gracias.
Una empresa nos envía archivos en PDF con datos que necesito extraer, como ser: nombre, dirección, productos, etc. esta empresa. no nos envía en formato XML solo en PDF. Hay alguna manera de poder extraer datos de ese PDF? o transformar ese PDF en XML?
gracias.
- Antonio Linares
- Site Admin
- Posts: 42270
- Joined: Thu Oct 06, 2005 5:47 pm
- Location: Spain
- Contact:
Re: leer y pdf y extraer datos
Gustavo,
Revisa FWH\samples\pdfread.prg por si pudiera servirte
Revisa FWH\samples\pdfread.prg por si pudiera servirte
- Antonio Linares
- Site Admin
- Posts: 42270
- Joined: Thu Oct 06, 2005 5:47 pm
- Location: Spain
- Contact:
Re: leer y pdf y extraer datos
Otra manera sería usar este código en python y llamarlo desde Harbour:
Code: Select all | Expand
import PyPDF2
def extraer_texto_pdf(pdf_path):
texto_extraido = ""
# Abre el archivo PDF en modo binario
with open(pdf_path, 'rb') as archivo_pdf:
# Crea un objeto PDFReader
lector_pdf = PyPDF2.PdfFileReader(archivo_pdf)
# Recorre todas las páginas del PDF
for pagina_numero in range(lector_pdf.numPages):
# Obtiene el objeto de la página
pagina = lector_pdf.getPage(pagina_numero)
# Extrae el texto de la página
texto_extraido += pagina.extractText()
return texto_extraido
# Ruta al archivo PDF que deseas procesar
ruta_pdf = 'ejemplo.pdf'
# Llama a la función para extraer el texto
texto_extraido = extraer_texto_pdf(ruta_pdf)
# Imprime el texto extraído
print(texto_extraido)
Re: leer y pdf y extraer datos
Hola Antonio,
¿ Hay alguna forma facil de llamar a un codigo python desde Harbour ?
¿ Se requiere tener python instalado supongo ? ¿ La minima expresion de python cual seria ?
En todo caso, lo que haré será investigar ese tema. Ese enlace puede ser un buen supletorio en _
Salu2
¿ Hay alguna forma facil de llamar a un codigo python desde Harbour ?
¿ Se requiere tener python instalado supongo ? ¿ La minima expresion de python cual seria ?
En todo caso, lo que haré será investigar ese tema. Ese enlace puede ser un buen supletorio en _
Salu2
- goosfancito
- Posts: 1955
- Joined: Fri Oct 07, 2005 7:08 pm
Re: leer y pdf y extraer datos
al ejecutar. el ejemplo de pdfread
Application
===========
Path and name: X:\workshop\2024\pdf\bin\pdf.Exe (32 bits)
Size: 4,774,912 bytes
Compiler version: Harbour 3.2.0dev (r2104281802)
FiveWin version: FWH 21.11
C compiler version: Borland/Embarcadero C++ 7.6 (32-bit)
Windows version: 6.2, Build 9200
Time from start: 0 hours 0 mins 0 secs
Error occurred at: 01/26/24, 12:29:23
Error description: (DOS Error -2147352567) WINOLE/1007 (0x800C0005): SPEAK
Args:
[ 1] = C c:\curl.txt
[ 2] = N 4
Stack Calls
===========
Called from: => TOLEAUTO:SPEAK( 0 )
Called from: Source\pdfread.prg => MAIN( 8 )
- goosfancito
- Posts: 1955
- Joined: Fri Oct 07, 2005 7:08 pm
Re: leer y pdf y extraer datos
El pdf que tengo, al abrirlo con el notepad dice
porque al ejecutar el programa (ahora lo ejecuta poniendo la ruta completa del pdf y del txt) el archivo txt queda vacío.
por lo que lei en google habría que decodificarlo, es asi?%PDF-1.3
%Äåòåë§ó ÐÄÆ
4 0 obj
<< /Filter /FlateDecode /Length 3182 >>
stream
porque al ejecutar el programa (ahora lo ejecuta poniendo la ruta completa del pdf y del txt) el archivo txt queda vacío.
Re: leer y pdf y extraer datos
No te sirve SUMATRAPDF.exe ?
Regards, saludos.
Regards, saludos.
João Santos - São Paulo - Brasil - Phone: +55(11)95150-7341
- Antonio Linares
- Site Admin
- Posts: 42270
- Joined: Thu Oct 06, 2005 5:47 pm
- Location: Spain
- Contact:
Re: leer y pdf y extraer datos
Querido Paco,paquitohm wrote:Hola Antonio,
¿ Hay alguna forma facil de llamar a un codigo python desde Harbour ?
¿ Se requiere tener python instalado supongo ? ¿ La minima expresion de python cual seria ?
En todo caso, lo que haré será investigar ese tema. Ese enlace puede ser un buen supletorio en _
Salu2
https://github.com/FiveTechSoft/harbour_python
Re: leer y pdf y extraer datos
Hola Antonio,
Gracias por tu respuesta
Lo de tener que instalar Python en cada maquina de los clientes me supone un inconveniente
¿ No habrá algunas libreria o algo asi para dejar en la carpeta de la aplicacion sin necesidad de instalar todo ?
Salu2
Gracias por tu respuesta
Lo de tener que instalar Python en cada maquina de los clientes me supone un inconveniente
¿ No habrá algunas libreria o algo asi para dejar en la carpeta de la aplicacion sin necesidad de instalar todo ?
Salu2
- goosfancito
- Posts: 1955
- Joined: Fri Oct 07, 2005 7:08 pm
Re: leer y pdf y extraer datos
no lo conozco voy a indagar. gracias!karinha wrote:No te sirve SUMATRAPDF.exe ?
Regards, saludos.
- Antonio Linares
- Site Admin
- Posts: 42270
- Joined: Thu Oct 06, 2005 5:47 pm
- Location: Spain
- Contact:
Re: leer y pdf y extraer datos
Paco,paquitohm wrote:Hola Antonio,
Gracias por tu respuesta
Lo de tener que instalar Python en cada maquina de los clientes me supone un inconveniente
¿ No habrá algunas libreria o algo asi para dejar en la carpeta de la aplicacion sin necesidad de instalar todo ?
Salu2
Ese es el mismo inconveniente que encontramos nosotros para usar IA que se basa en Python, de ahi que es un alivio que exista https://github.com/ggerganov/llama.cpp pero esto es solo para IA y no para Python en general.
Voy a buscar a ver si existe alguna solución para crear ejecutables con Python...
- Antonio Linares
- Site Admin
- Posts: 42270
- Joined: Thu Oct 06, 2005 5:47 pm
- Location: Spain
- Contact:
Re: leer y pdf y extraer datos
Paco,
La respuesta de la IA de Bing (copilot):
La respuesta de la IA de Bing (copilot):
Sí, existen varias formas de crear archivos ejecutables en Python que se pueden ejecutar sin necesidad de tener instalado el intérprete de Python. Algunas de las herramientas más populares son:
PyInstaller: Permite crear ejecutables de un solo archivo o de una carpeta, y soporta múltiples sistemas operativos. También permite incluir recursos externos como imágenes o archivos .ui12.
py2exe: Es una herramienta específica para Windows que convierte los scripts de Python en archivos .exe. Tiene algunas limitaciones, como no soportar Python 3.7 o superior3.
cx_Freeze: Es una herramienta multiplataforma que crea ejecutables a partir de scripts de Python. Soporta Python 3.6 o superior, y permite incluir módulos adicionales3.
Para utilizar estas herramientas, es necesario instalarlas con el comando pip install <nombre de la herramienta>, y luego ejecutarlas con el nombre del script de Python que se quiere convertir en ejecutable. Cada herramienta tiene sus propios argumentos y opciones que se pueden consultar en su documentación oficial.
Re: leer y pdf y extraer datos
Gracias Antonio.
El uso de ejecutables externos es una solucion.
Asi podemos hacer un solo ejecutable python que sea multifuncional
Recientemente lo he hecho con powershell para envio de email: Le paso parametro de archivo .ini y el propio powershell graba en ese archivo .ini los datos resultantes (enviado/ no enviado) mientras el programa harbour espere con un timeout de 5 o que la seccion resultante haya sido escrita. Realmente funciona muy bien.
Un unico .exe multifuncion de python puede ser la solucion para interactuar sin montar todo el monario de python
Salu2
El uso de ejecutables externos es una solucion.
Asi podemos hacer un solo ejecutable python que sea multifuncional
Recientemente lo he hecho con powershell para envio de email: Le paso parametro de archivo .ini y el propio powershell graba en ese archivo .ini los datos resultantes (enviado/ no enviado) mientras el programa harbour espere con un timeout de 5 o que la seccion resultante haya sido escrita. Realmente funciona muy bien.
Un unico .exe multifuncion de python puede ser la solucion para interactuar sin montar todo el monario de python
Salu2
- nageswaragunupudi
- Posts: 10691
- Joined: Sun Nov 19, 2006 5:22 am
- Location: India
- Contact:
Re: leer y pdf y extraer datos
First try opening the file with
Code: Select all | Expand
htmlView( FullName( cPdfFileName ) )
Regards
G. N. Rao.
Hyderabad, India
G. N. Rao.
Hyderabad, India
Re: leer y pdf y extraer datos
Code: Select all | Expand
// C:\FWH\SAMPLES\HTMLPDF.PRG
#include "FiveWin.ch"
STATIC oWnd
FUNCTION Main()
LOCAL oBar
DEFINE WINDOW oWnd TITLE "HtmlViewPdf"
DEFINE BUTTONBAR oBar _3D OF oWnd
DEFINE BUTTON OF oBar ACTION HtmlViewPdf()
SET MESSAGE OF oWnd TO "HtmlViewPdf" NOINSET CLOCK DATE KEYBOARD
ACTIVATE WINDOW oWnd MAXIMIZED
RETURN NIL
FUNCTION HtmlViewPdf()
HTMLVIEW( "C:\TEMP\FWINTRO.PDF" ) // USE ACROBAT
RETURN NIL
// FIN / END
João Santos - São Paulo - Brasil - Phone: +55(11)95150-7341