Ir para o conteúdo

Amazon AWS - Textract

Nada pode ser mais simples de interagir com o Amazon Textract do que o plugin da BotCity.

O plugin BotCity para o AWS Textract permite que você analise e extraia dados rapidamente de centenas de documentos, sejam eles digitados ou manuscritos.

Instalação

pip install botcity-aws-textract-plugin

Importando o Plugin

Depois de instalar este pacote, a próxima etapa é importar o pacote para o seu código e começar a usar as funções.

from botcity.plugins.aws.textract import BotAWSTextractPlugin

Configurando a conexão

Observação

Existem duas maneiras diferentes de autenticar.

1.Criando a pasta .aws no diretório inicial, você precisa criar dois arquivos.

# ~/.aws/config
[default]
region=<region_code>
# ~/.aws/credentials
[default]
aws_access_key_id=<your_aws_access_key_id>
aws_secret_access_key=<your_aws_secret_access_key>

2. Passando credenciais no construtor da classe.

# Usando a pasta `.aws '
textract = BotAWSTextractPlugin()

# Alternativa usando as credenciais como argumentos construtores
textract = BotAWSTextractPlugin(
            region_name='<cod_regiao>',
            use_credentials_file=False,
            access_key_id='<seu_id_chave_acesso_aws>',
            secret_access_key='<sua_chave_acesso_secreta_aws>',
)

Como demonstração da biblioteca, vamos construir um exemplo simples juntos que analisará o texto da seguinte imagem:

otter_crossing.jpg

Clique aqui para baixar

Lendo o texto da imagem

Agora vamos ler o texto da imagem.

# Leia o texto da imagem
textract.read("otter_crossing.jpg")

# Imprima o texto da imagem
print(textract.full_text())

A saída deve ficar assim:

CAUTION
Otters
crossing
for
next
6
miles

Código completo

Vamos dar uma olhada no código completo:

# Instancie o plugin usando a pasta `.aws '
textract = BotAWSTextractPlugin()

# Leia o texto da imagem
textract.read("otter_crossing.jpg")

# Imprima o texto da imagem
print(textract.full_text())

Dica

Este plugin permite que você use encandeamento de métodos para que o código acima possa ser escrito assim:

texto = BotAWSTextractPlugin() \
    .read("otter_crossing.jpg") \
    .full_text()
# Imprima o texto da imagem
print(texto)