Muchas empresas utilizan trabajadores humanos para realizar la entrada manual de datos en formularios, aplicaciones y otros documentos físicos. Si aceptablemente esto es muy preciso, es calmoso y costoso. AWS Textract utiliza el educación automotriz para automatizar este proceso.
¿Por qué utilizar AWS Textract?
Textract ciertamente no es la única utensilio de inspección óptico de caracteres: hay muchas soluciones de código destapado disponibles de forma gratuita, como Tesseract OCR. Puede repasar nuestra orientador para usar eso para obtener más información.
Textract, sin bloqueo, es mucho más que un simple OCR, ya que está diseñado para analizar y extraer datos de formularios, tablas y otros documentos. Es capaz de extraer pares clave-valor, tablas y otras cadenas secreto importantes, lo que lo hace en realidad útil como una interfaz entre los documentos escaneados y una colchoneta de datos (aunque deberá configurar esa automatización usted mismo).
El otro atractivo es que Textract hace que OCR esté arreglado como un servicio en la estrato completamente administrado. No es necesario que configure sus propios servidores de aplicaciones para ejecutar OCR y comprender el resultado; simplemente configure Textract y envíele algunos documentos, se mostrarán los resultados.
Para las empresas que aún realizan la entrada manual de datos, Textract puede ahorrarle un división de boleto, tanto en las reducidas horas de trabajo dedicadas a escribir en un teclado, como en el hecho de que puede procesar muchos principios a la vez, lo que aumenta enormemente la velocidad de entrada de datos.
En términos de precio, Textract es más rebajado para texto simple, como escanear páginas de libros. Por eso, solo cuesta $ 1,50 por 1000 páginas. Para analizar tablas, cuesta $ 15.00 por 1000 páginas. Para los pares clave-valor, cuesta $ 50,00 por 1000 páginas. Si aceptablemente eso no es exactamente injustificado, es mejor que pagarle a un humano para que lo haga manualmente.
Textract es proporcionado preciso, pero si le preocupa que la máquina se equivoque, AWS asimismo tiene una posibilidad para eso. Puede configurar Textract para utilizar el flujo de trabajo de IA aumentada de Amazon, que remitirá automáticamente los resultados de muerto confianza a los humanos para su revisión.
Usando Textract
Dirígete a Textract Management Console y haz clic en “comenzar”. Usando la consola manualmente, puede cargar documentos usando el timbre aquí:
Pin it
Textract lo procesará de inmediato. Verá rápidamente qué hace que Textract sea tan útil; sabía qué fragmentos de texto de este formulario W2 eran importantes, cuáles eran parte de pares clave-valor, cuáles eran parte de tablas y cuáles podía descartar.
Pin it
A la derecha, encontrará la salida, que muestra todas las cadenas sin procesar que encontró, los pares clave-valor y las tablas de datos. Tenga en cuenta que estos no son mutuamente excluyentes, ya que en este caso encontró pares clave-valor que asimismo eran partes de tablas.
Pin it
Puede descargar los resultados y encontrará un archivo CSV de todas las tablas y pares clave-valor, así como un archivo de texto de la salida de texto sin procesar.
Pin it
Si desea automatizar Textract, deberá utilizar la AWS CLI o API. Textract tiene su propio conjunto de comandos para trabajar con él desde la camino de comandos.
Puede serializar el documento en bytes de documento codificados en colchoneta64 o cargarlo en S3 y darle a Textract una secreto para encontrarlo. Entonces, puedes usar analyze-document para emprender un trabajo:
aws textract analyze-document --document '{"S3Object":{"Bucket":"bucket","Name":"document"}}' --feature-types '["TABLES","FORMS"]'
Esta es una operación sincrónica, pero puede analizar de forma asincrónica iniciando un trabajo y luego recuperando los resultados manualmente.
aws textract get-document-analysis --job-id df7cf32ebbd2a5de113535fcf4d921926a701b09b4e7d089f3aebadb41e0712b --max-results 1000