arrow_back

Document AI API를 사용해 Python으로 문서 처리

로그인 가입
지식을 테스트하고 커뮤니티와 공유하기
done
700개 이상의 실무형 실습, 기술 배지, 과정에 액세스

Document AI API를 사용해 Python으로 문서 처리

실습 1시간 universal_currency_alt 크레딧 1개 show_chart 입문
info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.
지식을 테스트하고 커뮤니티와 공유하기
done
700개 이상의 실무형 실습, 기술 배지, 과정에 액세스

GSP925

Google Cloud 사용자 주도형 실습

개요

Document AI API는 문서, 이메일과 같은 비정형 데이터를 가져와서 데이터를 더 쉽게 이해, 분석, 사용할 수 있도록 해주는 문서 이해 솔루션입니다.

이 실습에서는 Document AI API를 사용해 Python으로 일반적인 양식 프로세서, Document OCR 프로세서를 비롯한 다양한 프로세서를 만든 다음, Python을 사용하여 동기식/비동기식으로 API를 호출합니다. 또한 Document AI Python 클라이언트 모듈 작업을 위해 JupyterLab 노트북과 함께 사용할 Vertex AI Workbench 인스턴스를 만들어 봅니다.

목표

이 실습에서는 다음 작업을 수행하는 방법을 알아봅니다.

  • Document AI API를 사용 설정하고 프로세서 만들기
  • Vertex AI Workbench 인스턴스에 Python용 클라이언트 라이브러리 설치
  • Python을 사용해, 스캔한 양식의 데이터를 파싱하여 동기식으로 API 호출
  • Python을 사용해, 스캔한 양식의 데이터를 파싱하여 비동기식으로 API 호출

설정 및 요건

실습 시작 버튼을 클릭하기 전에

다음 안내를 확인하세요. 실습에는 시간 제한이 있으며 일시중지할 수 없습니다. 실습 시작을 클릭하면 타이머가 시작됩니다. 이 타이머에는 Google Cloud 리소스를 사용할 수 있는 시간이 얼마나 남았는지 표시됩니다.

실무형 실습을 통해 시뮬레이션이나 데모 환경이 아닌 실제 클라우드 환경에서 직접 실습 활동을 진행할 수 있습니다. 실습 시간 동안 Google Cloud에 로그인하고 액세스하는 데 사용할 수 있는 새로운 임시 사용자 인증 정보가 제공됩니다.

이 실습을 완료하려면 다음을 준비해야 합니다.

  • 표준 인터넷 브라우저 액세스 권한(Chrome 브라우저 권장)
참고: 이 실습을 실행하려면 시크릿 모드 또는 시크릿 브라우저 창을 사용하세요. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.
  • 실습을 완료하기에 충분한 시간---실습을 시작하고 나면 일시중지할 수 없습니다.
참고: 계정에 추가 요금이 발생하지 않도록 하려면 개인용 Google Cloud 계정이나 프로젝트가 이미 있어도 이 실습에서는 사용하지 마세요.

Cloud Shell 활성화

Cloud Shell은 다양한 개발 도구가 탑재된 가상 머신으로, 5GB의 영구 홈 디렉터리를 제공하며 Google Cloud에서 실행됩니다. Cloud Shell을 사용하면 명령줄을 통해 Google Cloud 리소스에 액세스할 수 있습니다.

  1. Google Cloud 콘솔 상단에서 Cloud Shell 활성화 Cloud Shell 활성화 아이콘를 클릭합니다.

연결되면 사용자 인증이 이미 처리된 것이며 프로젝트가 PROJECT_ID로 설정됩니다. 출력에 이 세션의 PROJECT_ID를 선언하는 줄이 포함됩니다.

Your Cloud Platform project in this session is set to YOUR_PROJECT_ID

gcloud는 Google Cloud의 명령줄 도구입니다. Cloud Shell에 사전 설치되어 있으며 명령줄 자동 완성을 지원합니다.

  1. (선택사항) 다음 명령어를 사용하여 활성 계정 이름 목록을 표시할 수 있습니다.
gcloud auth list
  1. 승인을 클릭합니다.

  2. 다음과 비슷한 결과가 출력됩니다.

출력:

ACTIVE: * ACCOUNT: student-01-xxxxxxxxxxxx@qwiklabs.net To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (선택사항) 다음 명령어를 사용하여 프로젝트 ID 목록을 표시할 수 있습니다.
gcloud config list project

출력:

[core] project = <project_ID>

출력 예시:

[core] project = qwiklabs-gcp-44776a13dea667a6 참고: gcloud 전체 문서는 Google Cloud에서 gcloud CLI 개요 가이드를 참조하세요.

작업 1. 일반적인 양식 프로세서 만들기 및 테스트

이 작업에서는 Document AI API를 사용 설정하고, 일반적인 양식 프로세서를 생성 및 테스트합니다. 일반적인 양식 프로세서는 어떤 유형의 문서도 처리 가능하며, 문서 내에서 식별할 수 있는 모든 텍스트 콘텐츠를 추출합니다. 인쇄된 텍스트뿐만 아니라 필기 텍스트도 텍스트 방향에 관계없이 처리할 수 있으며, 여러 언어를 지원합니다. 또한 양식 데이터 요소가 서로 어떻게 연관되어 있는지 이해하여 텍스트 라벨이 있는 양식 필드의 키-값 쌍을 추출할 수도 있습니다.

Cloud Document AI API 사용 설정

Document AI를 사용하려면 우선 API를 사용 설정해야 합니다.

  1. Cloud 콘솔의 탐색 메뉴(탐색 메뉴 아이콘)에서 API 및 서비스 > 라이브러리를 클릭합니다.

  2. Cloud Document AI API를 검색한 다음, 사용 설정 버튼을 클릭하여 Google Cloud 프로젝트에서 API를 사용합니다.

Cloud Document AI API가 이미 사용 설정되어 있는 경우 관리 버튼이 표시되며, 그러면 실습의 나머지 부분을 계속 진행할 수 있습니다.

Cloud Document AI API가 사용 설정되어 있는지 확인합니다.

일반적인 양식 프로세서 만들기

Document AI 양식 파서를 사용하여 Document AI 프로세서를 만듭니다.

  1. 콘솔의 탐색 메뉴(탐색 메뉴 아이콘)에서 Document AI > 개요를 클릭합니다.

  2. 프로세서 탐색을 클릭하고 일반적인 프로세서의 한 유형인 양식 파서를 선택합니다.

  3. 프로세서 이름을 form-parser로 지정하고, 리전은 목록에서 US(미국)를 선택합니다.

  4. 만들기를 클릭하여 일반적인 form-parser 프로세서를 생성합니다.

그러면 프로세서가 만들어지고 프로세서 ID, 상태, 예측 엔드포인트가 표시된 프로세서 세부정보 페이지로 돌아가게 됩니다.

  1. 이후 작업에서 JupyterLab 노트북의 변수를 업데이트할 때 필요하므로 이 프로세서 ID를 기록해 둡니다.

작업 2. Vertex AI Workbench 인스턴스를 구성하여 Document AI API 호출 수행

이제 실습을 시작할 때 자동 생성된 Vertex AI Workbench 인스턴스에서 실행되는 JupyterLab에 연결한 후에, 나머지 실습 작업에 사용할 환경을 구성해 보겠습니다.

  1. Google Cloud 콘솔의 탐색 메뉴에서 Vertex AI > Workbench를 클릭합니다.

  2. 인스턴스를 찾아 JupyterLab 열기 버튼을 클릭합니다.

Workbench 인스턴스의 JupyterLab 인터페이스가 새 브라우저 탭에서 열립니다.

  1. 터미널을 클릭하여 Vertex AI Workbench 인스턴스 내부의 터미널 셸을 엽니다.

  2. 터미널 셸에 다음 명령어를 입력하여 실습 파일을 Vertex AI Workbench 인스턴스로 가져옵니다.

gsutil cp {{{project_0.startup_script.notebook_files_path|notebook_files_path}}} .
  1. 터미널 셸에 다음 명령어를 입력하여 Document AI에 필요한 Python 클라이언트 라이브러리와 기타 필요한 라이브러리를 설치합니다.
python -m pip install --upgrade google-cloud-core google-cloud-documentai google-cloud-storage prettytable

라이브러리가 성공적으로 설치되었음을 알리는 출력이 표시됩니다.

참고: 권한 관련 오류가 발생할 경우 라이브러리가 성공적으로 설치되도록 명령어를 다시 실행합니다. 권한이 적용되는 데 몇 분 정도 걸릴 수 있습니다.
  1. 터미널 셸에 다음 명령어를 입력하여 샘플 상태 접수 양식을 가져옵니다.
gsutil cp {{{project_0.startup_script.health_intake_form_path|form_path}}} form.pdf
  1. 노트북 인터페이스에서 이름이 인 JupyterLab 노트북을 엽니다.

  2. Select Kernel(커널 선택) 대화상자의 사용 가능한 커널 목록에서 Python 3을 선택합니다.

동기식 Document AI API 호출을 수행할 Vertex AI 인스턴스가 준비되었는지 확인합니다.

작업 3. 동기식 문서 처리 요청

동기식 Document AI API 호출을 통해 문서 처리 호출을 수행합니다. 한 번에 대량의 문서를 처리해야 할 경우에는 이후 작업에서 사용할 비동기식 API를 사용해도 됩니다.

동기식 Document AI API 호출을 위해 Python 코드 검토

잠시 시간을 내어 노트북에서 Python 코드를 검토합니다.

첫 번째 코드 블록은 필수 라이브러리를 가져와 일부 변수를 초기화합니다.

from google.cloud import documentai_v1beta3 as documentai from google.cloud import storage from prettytable import PrettyTable project_id = %system gcloud config get-value core/project project_id = project_id[0] location = 'us' file_path = 'form.pdf'

Set your Processor ID 코드 셀은 노트북으로 문서를 처리하기 전에 수동으로 설정해야 하는 프로세서 ID를 설정합니다.

processor_id = 'PROCESSOR_ID' # TODO: Replace with a valid Processor ID

이 단계에서는 작업 1에서 만든 프로세서의 Document AI 프로세서 ID가 필요합니다.

팁: 저장하지 않았다면 Cloud 콘솔 탭에서 탐색 메뉴(탐색 메뉴 아이콘)를 열고 Document AI > 내 프로세서를 클릭한 다음, 프로세서 이름을 클릭하여 세부정보 페이지를 엽니다. 여기에서 프로세서 ID를 복사할 수 있습니다.

Process Document Function 코드 셀은 Document AI 프로세서를 동기식으로 호출하는 데 사용되는 process_document 함수를 정의합니다. 이 함수는 Document AI API 클라이언트 객체를 만듭니다.

API 호출에 필요한 프로세서 이름은 project_id, locations, processor_id 파라미터를 사용해 만들며, 샘플 PDF 문서를 읽고 mime_type 구조로 저장합니다.

이 함수는 문서의 전체 프로세서 이름이 포함된 요청 객체를 만들고, Document AI API 클라이언트를 동기식으로 호출하기 위한 파라미터로 해당 객체를 사용합니다. 요청이 성공하면 반환된 문서 객체에는 양식에서 감지된 항목을 담고 있는 속성이 포함됩니다.

def process_document( project_id=project_id, location=location, processor_id=processor_id, file_path=file_path ): # Instantiates a client client = documentai.DocumentProcessorServiceClient() # The full resource name of the processor, e.g.: # projects/project-id/locations/location/processor/processor-id # You must create new processors in the Cloud Console first name = f"projects/{project_id}/locations/{location}/processors/{processor_id}" with open(file_path, "rb") as image: image_content = image.read() # Read the file into memory document = {"content": image_content, "mime_type": "application/pdf"} # Configure the process request request = {"name": name, "document": document} # Use the Document AI client to process the sample form result = client.process_document(request=request) return result.document

Process Document 코드 셀은 process_document 함수를 호출하고, document 변수에 응답을 저장하며, 감지된 원시 텍스트를 출력합니다. 모든 프로세서는 document.text 속성에 대한 일부 데이터를 보고합니다.

document=process_document() # print all detected text. # All document processors will display the text content print("Document processing complete.") print("Text: {}".format(document.text))

Get Text Function 코드 셀은 get_text() 함수를 정의합니다. 이 함수는 이름이 지정된 요소의 text_segments에 있는 text_anchor, start_index, end_index 속성을 사용하여 이름이 지정된 요소에 대한 텍스트를 검색합니다. 이 함수는 프로세서가 양식 데이터를 반환한 경우 해당 데이터의 양식 이름과 양식 값을 검색하는 데 사용됩니다.

def get_text(doc_element: dict, document: dict): """ Document AI identifies form fields by their offsets in document text. This function converts offsets to text snippets. """ response = "" # If a text segment spans several lines, it will # be stored in different text segments. for segment in doc_element.text_anchor.text_segments: start_index = ( int(segment.start_index) if segment in doc_element.text_anchor.text_segments else 0 ) end_index = int(segment.end_index) response += document.text[start_index:end_index] return response

Display Form Data 셀은 감지된 모든 페이지를 반복하고 감지된 각 form_field에 대해 get_text() 함수를 사용하여 필드 이름과 필드 값을 검색합니다. 그런 다음, 이들 값이 해당하는 신뢰도 점수와 함께 출력됩니다. 양식 데이터가 일반적인 양식 파서 또는 특수 파서를 사용하는 프로세서에서는 반환되지만, Document OCR 파서를 사용해 만들어진 프로세서에서는 반환되지 않습니다.

document_pages = document.pages print("Form data detected:\n") # For each page fetch each form field and display fieldname, value and confidence scores for page in document_pages: print("Page Number:{}".format(page.page_number)) for form_field in page.form_fields: fieldName=get_text(form_field.field_name,document) nameConfidence = round(form_field.field_name.confidence,4) fieldValue = get_text(form_field.field_value,document) valueConfidence = round(form_field.field_value.confidence,4) print(fieldName+fieldValue +" (Confidence Scores: (Name) "+str(nameConfidence)+", (Value) "+str(valueConfidence)+")\n")

Display Entity Data 셀은 문서 객체의 항목 데이터를 추출하고, 감지된 각 항목에 대해 항목 유형, 값, 신뢰도 속성을 표시합니다. 항목 값은 Procurement Expense 파서와 같은 특수 Document AI 파서를 사용하는 프로세서에만 유일하게 반환됩니다. 일반적인 양식 파서 및 Document OCR 파서는 항목 데이터를 반환하지 않습니다.

if 'entities' in dir(document): entities = document.entities # Grab each key/value pair and their confidence scores. table = PrettyTable(['Type', 'Value', 'Confidence']) for entity in entities: entity_type = entity.type_ value = entity.mention_text confience = round(entity.confidence,4) table.add_row([entity_type, value, confience]) print(table) else: print("Document does not contain entity data.")

작업 4. 동기식 Document AI Python 코드 실행

코드를 실행하여 JupyterLab 노트북에서 Document AI API를 동기식으로 호출합니다.

  1. 두 번째 Set your Processor ID 코드 셀에서 PROCESSOR_ID 자리표시자 텍스트를 이전 단계에서 만든 form-parser 프로세서의 프로세서 ID로 바꿉니다.

  2. 첫 번째 셀을 선택하고 Run(실행) 메뉴를 클릭한 다음 Run Selected Cell and All Below(선택한 셀과 그 아래의 모든 셀 실행)을 클릭하여 노트북에서 모든 코드를 실행합니다.

샘플 상태 접수 양식을 사용했다면 양식 데이터 출력 셀에 다음과 비슷한 데이터가 나타납니다.

Form data detected: Page Number:1 Phone #: (906) 917-3486 (Confidence Scores: (Name) 1.0, (Value) 1.0) ... Date: 9/14/19 (Confidence Scores: (Name) 0.9999, (Value) 0.9999) ... Name: Sally Walker (Confidence Scores: (Name) 0.9973, (Value) 0.9973) ...

특수 프로세서를 만들 수 있다면 마지막 셀에 항목 데이터가 표시되며, 그렇지 않은 경우 빈 테이블이 표시됩니다.

  1. JupyterLab 메뉴에서 File(파일), Save Notebook(노트북 저장)을 차례로 클릭하여 진행 상황을 저장합니다.
문서가 동기식 Cloud Document API를 사용하여 처리되었는지 확인합니다.

작업 5. Document AI Document OCR 프로세서 만들기

이 작업에서는 일반적인 Document OCR 파서를 사용해 Document AI 프로세서를 만듭니다.

  1. 탐색 메뉴에서 Document AI > 개요를 클릭합니다.

  2. 프로세서 탐색을 클릭하고 Document OCR에 대해 프로세서 만들기를 클릭합니다. 이는 일반적인 유형의 프로세서입니다.

  3. 프로세서 이름을 ocr-processor로 지정하고, 리전은 목록에서 US(미국)를 선택합니다.

  4. 만들기를 클릭하여 프로세서를 생성합니다.

  5. 프로세서 ID를 기록해 둡니다. 이후 작업에서 이를 지정할 때 사용해야 합니다.

작업 6. 비동기식 Document AI API 호출을 위한 환경 준비

이 작업에서는 샘플 JupyterLab 노트북을 업로드하여 비동기식 Document AI API 호출을 테스트하고, 비동기식 처리를 위해 일부 실습용 샘플 양식을 Cloud Storage에 복사합니다.

  1. 터미널 탭을 클릭하여 Vertex AI Workbench 인스턴스 내부의 터미널 셸을 다시 엽니다.

  2. 입력 문서를 위한 Cloud Storage 버킷을 만들고 샘플 W2 양식을 버킷에 복사합니다.

export PROJECT_ID="$(gcloud config get-value core/project)" export BUCKET="${PROJECT_ID}"_doc_ai_async gsutil mb gs://${BUCKET} gsutil -m cp {{{project_0.startup_script.async_files_path|async_files_path}}} gs://${BUCKET}/input
  1. 노트북 인터페이스에서 이름이 인 JupyterLab 노트북을 엽니다.

  2. Select Kernel(커널 선택) 대화상자의 사용 가능한 커널 목록에서 Python 3을 선택합니다.

비동기식 Document AI API 호출을 수행할 Vertex AI 인스턴스가 준비되었는지 확인합니다.

작업 7. 비동기식 문서 처리 요청

비동기식 Document AI API 호출을 위해 Python 코드 검토

잠시 시간을 내어 노트북에서 Python 코드를 검토합니다.

첫 번째 코드 셀은 필수 라이브러리를 가져옵니다.

from google.cloud import documentai_v1beta3 as documentai from google.cloud import storage import re import os import pandas as pd import simplejson as json

Set your Processor ID 코드 셀은 노트북으로 문서를 처리하기 전에 수동으로 설정해야 하는 프로세서 ID를 설정합니다.

processor_id = "PROCESSOR_ID" # TODO: Replace with a valid Processor ID

Set your variables 코드 셀은 비동기식으로 호출하는 데 사용되는 파라미터를 정의합니다. 여기에는 소스 데이터와 출력 파일에 사용되는 입력 및 출력 Cloud Storage 버킷의 위치가 포함됩니다. 이 실습의 다음 섹션에서 코드를 실행하기 전에 이 셀의 PROJECT_IDPROCESSOR_ID에 대한 자리표시자 값을 업데이트해야 합니다. 다른 변수로는 프로세서 위치의 기본값, 입력 Cloud Storage 버킷, 출력 Cloud Storage 버킷 등이 있으며, 이들 변수는 변경할 필요가 없습니다.

project_id = %system gcloud config get-value core/project project_id = project_id[0] location = 'us' # Replace with 'eu' if processor does not use 'us' location gcs_input_bucket = project_id+"_doc_ai_async" # Bucket name only, no gs:// prefix gcs_input_prefix = "input/" # Input bucket folder e.g. input/ gcs_output_bucket = project_id+"_doc_ai_async" # Bucket name only, no gs:// prefix gcs_output_prefix = "output/" # Input bucket folder e.g. output/ timeout = 300

Define Google Cloud client objects 코드 셀은 Document AI 및 Cloud Storage 클라이언트를 초기화합니다.

client_options = {"api_endpoint": "{}-documentai.googleapis.com".format(location)} client = documentai.DocumentProcessorServiceClient(client_options=client_options) storage_client = storage.Client()

Create input configuration 코드 셀은 비동기식 Document AI 요청에 입력 구성으로 전달될 소스 데이터를 위한 입력 구성 배열 파라미터를 만듭니다. 이 배열은 입력 Cloud Storage 위치에서 찾은 각 파일에 대한 Cloud Storage 소스 위치와 MIME 유형을 저장합니다.

blobs = storage_client.list_blobs(gcs_input_bucket, prefix=gcs_input_prefix) input_configs = [] print("Input Files:") for blob in blobs: if ".pdf" in blob.name: source = "gs://{bucket}/{name}".format(bucket = gcs_input_bucket, name = blob.name) print(source) input_config = documentai.types.document_processor_service.BatchProcessRequest.BatchInputConfig( gcs_source=source, mime_type="application/pdf" ) input_configs.append(input_config)

Create output configuration 코드 셀은 출력 Cloud Storage 버킷 위치를 포함한 비동기식 요청의 출력 파라미터를 만들어 Document AI 일괄 출력 구성으로 저장합니다.

destination_uri = f"gs://{gcs_output_bucket}/{gcs_output_prefix}" output_config = documentai.types.document_processor_service.BatchProcessRequest.BatchOutputConfig( gcs_destination=destination_uri )

Create the Document AI API request 코드 셀은 입력 및 출력 구성 객체를 사용하여 비동기식 Document AI 일괄 처리 요청 객체를 빌드합니다.

name = f"projects/{project_id}/locations/{location}/processors/{processor_id}" request = documentai.types.document_processor_service.BatchProcessRequest( name=name, input_configs=input_configs, output_config=output_config, )

Start the batch (asynchronous) API operation 코드 셀은 요청 객체를 batch_process_documents() 메서드에 전달하여 비동기식 문서 처리 요청을 수행합니다. 비동기식 호출이므로 백그라운드 비동기식 작업이 완료될 때까지 노트북이 대기하도록 강제하기 위해 result() 메서드를 사용합니다.

operation = client.batch_process_documents(request) # Wait for the operation to finish operation.result(timeout=timeout) print ("Batch process completed.")

Fetch list of output files 셀은 destination_uri 변수에 정의된 출력 버킷 위치에 객체를 나열합니다.

Display detected text from asynchronous output JSON files 셀은 발견된 각 출력 JSON 파일을 Document AI 문서 객체로 로드하고, Document OCR 프로세서가 감지한 텍스트 데이터를 출력합니다.

Display entity data 셀은 발견된 항목 데이터를 표시하지만, 항목 데이터는 특수 파서를 사용하여 만들어진 프로세서에만 사용할 수 있습니다. 이 작업에 사용된 일반적인 Document AI OCR 파서로는 항목 데이터가 표시되지 않습니다.

비동기식 Document AI Python 코드 실행

Jupyterlab 노트북에 제공된 샘플 코드를 사용하여 Document AI 일괄 처리 요청을 통해 문서를 비동기식으로 처리합니다.

  1. 두 번째 코드 셀에서 PROCESSOR_ID 자리표시자 텍스트를 이전 단계에서 만든 form-parser 프로세서의 프로세서 ID로 바꿉니다.

  2. 첫 번째 셀을 선택하고 Run(실행) 메뉴를 클릭한 다음 Run Selected Cell and All Below(선택한 셀과 그 아래의 모든 셀 실행)을 클릭하여 노트북에서 모든 코드를 실행합니다.

  3. 코드 셀이 실행될 때 노트북을 살펴보며 코드와 비동기식 요청 객체가 생성되고 사용되는 방법을 설명하는 주석을 검토합니다.

노트북은 Start the batch (asynchronous) API operation 코드 셀에서 비동기식 일괄 처리 작업이 완료될 때까지 1~2분 정도 기다립니다. 일괄 처리 API 호출 자체는 비동기식이지만, 노트북은 result 메서드를 사용해 비동기식 호출이 완료될 때까지 기다린 후 출력 데이터를 나열하고 표시하도록 강제합니다.

비동기식 작업이 예상보다 오래 걸려 타임아웃되는 경우 출력을 표시하기 위해 남은 셀을 다시 실행해야 할 수 있습니다. 이러한 셀은 Start the batch (asynchronous) API operation 셀 다음에 있는 셀입니다.

출력에는 각 파일에서 감지된 Document AI 데이터를 나열하는 텍스트가 포함됩니다. Document OCR 파서는 양식 또는 항목 데이터를 감지하지 않으므로 양식 또는 항목 데이터는 생성되지 않습니다. 특수 프로세서를 만들 수 있는 경우에는 마지막 셀이 출력한 항목 데이터도 확인할 수 있습니다.

  1. JupyterLab 메뉴에서 File(파일), Save Notebook(노트북 저장)을 차례로 클릭하여 진행 상황을 저장합니다.
Document processing complete. Text: FakeDoc M.D. HEALTH INTAKE FORM Please fill out the questionnaire carefully. The information you provide will be used to complete your health profile and will be kept confidential. Date: Sally Walker Name: 9/14/19 ... 문서가 비동기식 Cloud Document API를 사용하여 처리되었는지 확인합니다.

수고하셨습니다

Document AI API를 동기식/비동기식으로 호출하는 작업을 성공적으로 수행했습니다. 이 실습을 통해 Document AI API를 사용 설정하고 프로세서를 만들었습니다. Vertex AI Workbench 인스턴스에 Python용 클라이언트 라이브러리를 설치하고, 동기식 API 호출을 수행하기 위해 Python을 사용해 스캔된 단일 양식의 데이터를 파싱했으며, 비동기식 API 호출을 수행하기 위해 Python을 사용해 스캔된 여러 양식의 데이터를 파싱했습니다.

퀘스트 완료하기

이 사용자 주도형 실습은 Detect Manufacturing Defects using Visual Inspection AI 기술 배지 퀘스트의 일부입니다. 퀘스트는 연관성이 있는 여러 실습을 하나의 학습 과정으로 구성한 것입니다. 이 퀘스트를 완료하면 배지를 얻고 수료를 인증할 수 있습니다. 이력서 및 소셜 미디어 플랫폼에 배지를 공유하고 #GoogleCloudBadge 해시태그를 사용해 스스로 달성한 업적을 널리 알리세요. 배지를 공개하고 온라인 이력서 또는 소셜 미디어 계정에 연결할 수 있습니다. 이 실습을 완료했다면 퀘스트에 등록하여 즉시 수료 크레딧을 받으세요. 다른 퀘스트도 확인해 보세요.

다음 단계/더 학습하기

  • Document AI API 사용에 대해 자세히 알아보려면 이 가이드를 읽어보세요.

Google Cloud 교육 및 자격증

Google Cloud 기술을 최대한 활용하는 데 도움이 됩니다. Google 강의에는 빠른 습득과 지속적인 학습을 지원하는 기술적인 지식과 권장사항이 포함되어 있습니다. 기초에서 고급까지 수준별 학습을 제공하며 바쁜 일정에 알맞은 주문형, 실시간, 가상 옵션이 포함되어 있습니다. 인증은 Google Cloud 기술에 대한 역량과 전문성을 검증하고 입증하는 데 도움이 됩니다.

설명서 최종 업데이트: 2024년 10월 8일

실습 최종 테스트: 2024년 10월 8일

Copyright 2024 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.

현재 이 콘텐츠를 이용할 수 없습니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

감사합니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.