[GCP] Qwiklab GSP323 - Google Cloud에서 기본 데이터, ML 및 AI 작업 수행: 챌린지 실습
https://google.qwiklabs.com/quests/34
Baseline: Data, ML, AI 를 학습하면 따라오는 챌린지.
과정은 대략 다음과 같다.
1. 간단한 Dataflow 작업 만들기
2. 간단한 Dataproc 작업 만들기
2. 간단한 Dataprep 작업 만들기
4. 3가지 Google 머신러닝 지원 API 작업 중 1가지 수행
그럼 순서대로 진행해보자.
1. 간단한 Dataflow 작업 만들기
-> Dataflow를 이용해서 Cloud Storage에 있는 txt파일을 Bigquery로 전송하는 작업.
우선 Bigquery 에서 lab dataset을 만들어주고, lab.schema 에 맞춰 lab.csv로 customers 테이블 생성
그 다음은 버킷 생성인데, 프로젝트 ID로 생성 해준다.
이제 Dataflow Job을 만들어 보자.
템플릿은 "Text Files on Cloud Storage to BigQuery" 다.
나머진 입력만 하면 끝.
작업이 도는데 대략 5분정도 걸린듯 하다.
배치가 stream 으로 돌아서 batch 로 돌리는 거 찾는데 오래걸림..ㅠㅠ 무려 3번 시도..
2. 간단한 Dataproc 작업 만들기
이건 쉽다. Dataproc으로 클러스터 만들어서 data.txt 복사하고 job 입력하면 끝.
클러스터 중 하나 클릭하고 SSH 로 접속해서 주어진 명령어 실행하면 된다.
hdfs dfs -cp gs://cloud-training/gsp323/data.txt /data.txt
그리고 jobs로 spark 진행하면 끝.
3. 간단한 Dataprep 작업 만들기
Dataprep 권한은 승인하고, import Data로 gs://cloud-training/gsp323/runs.csv 데이터를 가져온다.
데이터 전처리를 진행하는데, 필요한 조건에 맞춰서 마우스 우클릭하면 된다.
"Keep rows with selected values" 를 선택하면 SUCCESS만 남는다.
정규식은 Filter rows > On column values > Contains 를 선택하고 정규식을 넣고
Action에는 "Delete matching rows" 선택한다.
이름바꾸는 건 칼럼마다 Rename 진행.
그리고 Run Job.
4. 3가지 Google 머신러닝 지원 API 작업 중 1가지 수행
서비스 계정생성
API & Services > Credentials 에서 API Key 생성
API_KEY 변수 저장
export API_KEY=<YOUR_API_KEY>
request.json 생성
{
"config": {
"encoding":"FLAC",
"languageCode": "en-US"
},
"audio": {
"uri":"gs://테스트 파일 경로"
}
}
speech API 호출
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \ "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"
결과 파일 생성
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json "https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json
결과 파일 업로드
gsutil cp result.json gs://qwiklabs-gcp-04-a547a47ed8b2-marking/task4-gcs.result
버킷에 파일이 제대로 올라간지 보면 끝.
배지 취득완료.
[wp-rss-aggregator]
gcloud auth activa
te-service-account --key-file key.json