arrow_back

Engineer Data for Predictive Modeling with BigQuery ML: 챌린지 실습

로그인 가입
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Engineer Data for Predictive Modeling with BigQuery ML: 챌린지 실습

Lab 1시간 universal_currency_alt 크레딧 5개 show_chart 중급
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP327

Google Cloud 사용자 주도형 실습

개요

챌린지 실습에서는 특정 시나리오와 일련의 작업이 주어집니다. 단계별 안내를 따르는 대신, 과정의 실습에서 배운 기술을 사용하여 스스로 작업을 완료하는 방법을 알아내 보세요. 이 페이지에 표시되어 있는 자동 채점 시스템에서 작업을 올바르게 완료했는지 피드백을 제공합니다.

챌린지 실습을 진행할 때는 새로운 Google Cloud 개념에 대한 정보가 제공되지 않습니다. 학습한 기술을 응용하여 기본값을 변경하거나 오류 메시지를 읽고 조사하여 실수를 바로잡아야 합니다.

100점을 받으려면 시간 내에 모든 작업을 성공적으로 완료해야 합니다.

이 실습은 Engineer Data for Predictive Modeling with BigQuery ML 기술 배지 과정에 등록한 수강생에게 권장됩니다. 챌린지에 도전할 준비가 되셨나요?

설정

실습 시작 버튼을 클릭하기 전에

다음 안내를 확인하세요. 실습에는 시간 제한이 있으며 일시중지할 수 없습니다. 실습 시작을 클릭하면 타이머가 시작됩니다. 이 타이머에는 Google Cloud 리소스를 사용할 수 있는 시간이 얼마나 남았는지 표시됩니다.

실무형 실습을 통해 시뮬레이션이나 데모 환경이 아닌 실제 클라우드 환경에서 직접 실습 활동을 진행할 수 있습니다. 실습 시간 동안 Google Cloud에 로그인하고 액세스하는 데 사용할 수 있는 새로운 임시 사용자 인증 정보가 제공됩니다.

이 실습을 완료하려면 다음을 준비해야 합니다.

  • 표준 인터넷 브라우저 액세스 권한(Chrome 브라우저 권장)
참고: 이 실습을 실행하려면 시크릿 모드 또는 시크릿 브라우저 창을 사용하세요. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.
  • 실습을 완료하기에 충분한 시간---실습을 시작하고 나면 일시중지할 수 없습니다.
참고: 계정에 추가 요금이 발생하지 않도록 하려면 개인용 Google Cloud 계정이나 프로젝트가 이미 있어도 이 실습에서는 사용하지 마세요.

챌린지 시나리오

여러분은 TaxiCab Inc.의 데이터 엔지니어라는 새로운 역할을 맡게 되었습니다. 이전 데이터를 작업 중인 BigQuery 데이터 세트로 가져오고, 새로운 운행 시작 시 사용할 수 있는 정보를 토대로 요금을 예측하는 기본적인 모델을 빌드해야 합니다. 경영진은 앱을 빌드하고 이용자의 택시 요금을 예측하는 데 관심이 있습니다. 소스 데이터는 프로젝트에 제공됩니다.

이 직원은 이러한 작업에 필요한 기술과 지식을 보유하고 있어야 하며 단계별 안내는 따로 제공되지 않습니다.

챌린지

여러분은 책상에 앉아 새 노트북을 열어 첫 업무를 확인합니다. 경영진을 위해 기본적인 BQML 요금 예측 모델을 빌드하는 작업을 배정받았습니다. 경영진이 모델 성능을 검토하고 앱 기능 배포에 대해 진행 또는 중단 결정을 내릴 수 있도록 데이터를 가져와 정리한 후 모델을 빌드하고 새 데이터로 일괄 예측을 수행하세요.

작업 1. 학습 데이터 정리

이미 첫 단계를 완료하였고 taxirides라는 데이터 세트를 생성했으며 이전 데이터를 historical_taxi_rides_raw라는 테이블로 가져왔습니다. 이는 2015년 이전 운행 데이터입니다.

참고: 데이터가 프로젝트에 완전히 채워지기까지 1~3분 정도 기다려야 할 수 있습니다.

이 작업을 완료하려면 다음을 수행해야 합니다.

  • historical_taxi_rides_raw의 데이터를 정리하고 동일한 데이터 세트의 에 복사합니다. BigQuery, Dataprep, Dataflow 등을 사용해 이 테이블을 생성하고 데이터를 정리할 수 있습니다. 타겟 열의 이름을 로 지정합니다.

유용한 도움말:

  • BQ UI에서 소스 데이터 세트를 볼 수 있습니다. 먼저 소스 스키마를 숙지하세요.
  • 예측 시점에 제공될 형식 데이터를 보여주는 taxirides.report_prediction_data 테이블을 숙지하면 예측 시점에 사용 가능한 데이터에 관해 알 수 있습니다.

데이터 정리 작업:

  • trip_distance보다 커야 합니다.
  • fare_amount가 매우 낮은 행을 삭제합니다(예: $ 미만).
  • 위도 및 경도가 사용 사례에 합당한지 확인합니다.
  • passenger_count보다 커야 합니다.
  • total_amount에는 팁이 포함되어 있으니 tolls_amountfare_amount에 타겟 변수로 추가합니다.
  • 소스 데이터 세트가 대규모이므로(10억 행 초과) 데이터 세트를 1백만 개 미만 행으로 샘플링합니다.
  • 모델에서 사용할 필드만 복사합니다. report_prediction_data를 참조하면 좋습니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 에 있는 데이터의 정리된 데이터 사본 생성

작업 2. BigQuery ML 모델 만들기

  1. 에 있는 데이터를 토대로 를 예측하는 BigQuery ML 모델을 빌드합니다.

  2. 이 모델을 라고 하겠습니다.

참고: 작업을 완료하려면 모델에 RMSE 10 이하 버전이 필요합니다.

유용한 도움말:

  • TRANSFORM() 절의 모든 추가 데이터 변환을 캡슐화할 수 있습니다.
  • TRANSFORM() 절의 특성만 모델에 전달된다는 점에 유의하세요. * EXCEPT(feature_to_leave_out)를 사용하여 일부 또는 전체 특성을 명시적으로 호출하지 않고 전달할 수 있습니다.
  • 다음과 같이 BigQuery의 ST_distance()ST_GeogPoint() GIS 함수를 사용하여 유클리드 거리를 쉽게 계산할 수 있습니다(예: 택시의 승차와 하차 지점 간 거리).
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. RMSE 10 이하 버전으로 라는 BigQuery ML 모델 생성

작업 3. 새 데이터에 일괄 예측 수행

경영진은 새 데이터에 대한 모델의 성능을 확인하고 싶어 합니다. 이 경우 2015년에 수집한 모든 데이터가 해당됩니다. 이 데이터는 taxirides.report_prediction_data에 있습니다. 예측 시점에 알려진 값만 테이블에 포함됩니다.

  • ML.PREDICT 및 모델을 사용하여 를 예측하고 결과를 2015_fare_amount_predictions라는 테이블에 저장합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 일괄 예측 수행 및 2015_fare_amount_predictions라는 새 테이블에 저장

수고하셨습니다

Engineer Data for Predictive Modeling with BigQuery ML 배지

다음 기술 배지 획득

이 사용자 주도형 실습은 Engineer Data for Predictive Modeling with BigQuery ML 기술 배지 과정의 일부입니다. 이 기술 배지를 완료하면 위의 배지를 획득하여 수료를 인증할 수 있습니다. 이력서 및 소셜 플랫폼에 배지를 공유하고 #GoogleCloudBadge 해시태그를 사용해 스스로 달성한 업적을 널리 알리세요.

이 기술 배지는 Google Cloud에서 제공하는 데이터 엔지니어 학습 과정의 일부입니다. 이 학습 과정의 다른 기술 배지를 이미 완료했다면 카탈로그에서 등록할 수 있는 다른 기술 배지를 검색해 보세요.

Google Cloud 교육 및 자격증

Google Cloud 기술을 최대한 활용하는 데 도움이 됩니다. Google 강의에는 빠른 습득과 지속적인 학습을 지원하는 기술적인 지식과 권장사항이 포함되어 있습니다. 기초에서 고급까지 수준별 학습을 제공하며 바쁜 일정에 알맞은 주문형, 실시간, 가상 옵션이 포함되어 있습니다. 인증은 Google Cloud 기술에 대한 역량과 전문성을 검증하고 입증하는 데 도움이 됩니다.

설명서 최종 업데이트: 2024년 3월 25일

실습 최종 테스트: 2023년 9월 11일

Copyright 2024 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.