สวัสดีชาว Data & AI ทุกท่าน วันนี้ผมจะมาแชร์ประสบการณ์การสอบ Google Cloud Certification สาย Data ตัวใหม่ล่าสุดกันครับ นั่นก็คือ Associate Data Practitioner หลายคนอาจจะสงสัยว่าทำไม Google ถึงออก Certification สาย Data มาเพิ่มอีกตัวหนึ่ง ทั้ง ๆ ที่เรามี Professional Data Engineer และ Machine Learning Engineer อยู่แล้ว ลองมาอ่าน Blog นี้ไปพร้อม ๆ กันครับ
Associate Certification ตัวแรกสาย Data
จุดเริ่มต้นคือผมได้รับอีเมลฉบับหนึ่งจาก Google พูดถึงเรื่อง Certification ตัวใหม่ ซึ่งต้องบอกว่าบน Google Cloud นั้นจะมีแค่ Cloud Engineer ตัวเดียวที่เป็น Associate Level มานานกว่า 5 ปีได้ และทิศทางของเทคโนโลยีในโลกปัจจุบันก้าวเข้าสู่คำว่า Data & AI ก็ทำให้ Associate Data Practitioner Certification นั้นเกิดขึ้นมาเพื่อให้ตอบรับกับการรับรองความเชี่ยวชาญในหมวดหมู่เทคโนโลยีนี้โดยตรงครับ
ซึ่งสำหรับคนที่ผ่าน Professional Level อย่าง Data Engineer กับ Machine Learning Engineer มาแล้วเหมือนผม ก็คงคิดว่าหวานหมูแน่ ๆ เลย เพราะน่าจะเป็นพื้นฐานเริ่มต้นสู่ Data Engineer แต่บอกเลยว่า ไม่ง่าย ! เพราะเนื้อหานั้นคือคุณเป็น Data Practitioner จริง ๆ ในการเลือก Solution ที่เหมาะสมกับงานและ Business มองว่าอาจจะเป็น Certification ที่เหมาะกับ Business User ที่มีองค์ความรู้ Data ในระดับ Power User เลยก็ได้ครับ
ทำไมต้อง Associate Data Practitioner?
ก่อนอื่นเรามาทำความเข้าใจกันก่อนว่าเจ้า Associate Data Practitioner นั้นแตกต่างจาก Certification ตัวอื่น ๆ อย่างไร เพราะ Professional Data Engineer เน้นไปที่การออกแบบและสร้างระบบ Data Pipeline ข้อมูลขนาดใหญ่ ส่วน Machine Learning Engineer จะเน้นไปที่การสร้างและปรับแต่ง Model สำหรับ Machine Learning
แต่ Associate Data Practitioner จะมีความครอบคลุมมากกว่า โดยเน้นที่การบริหารจัดการข้อมูลบน Google Cloud ทั้งหมด ตั้งแต่การเตรียมข้อมูล การวิเคราะห์ข้อมูล การสร้าง Pipeline และการจัดการระบบให้มีประสิทธิภาพและปลอดภัย เรียกว่าเหมือนเรียนวิศวะเฉพาะทางก่อน เช่น วิศวะไฟฟ้า วิศวะคอม แล้วค่อยแยกสายออกไปลงลึกเป็นไฟฟ้าสื่อสาร ไฟฟ้ากำลัง ไฟฟ้าอิเล็กทรอนิกส์ หรือถ้าฝั่งวิศวะคอมก็แยกเป็นสาย AI, Information retrieval, Network, Grid Computing แต่ละขาประมาณนี้ครับ ก็แปลว่าต้องรู้ครบแต่ยังไม่ต้องลงลึกถึงโค้ดหนัก ๆ เหมือนสาย Data Engineer หรือ Machine Learning Engineer ครับ
ใครเหมาะกับ Certification นี้ ?
ส่วนตัวผมมองว่า Certification นี้เหมาะกับ Data Architect หรือ Data Solution Engineer มากที่สุดครับ เพราะคนที่อยู่ในตำแหน่งนี้ต้องมีความเข้าใจในภาพรวมของระบบข้อมูลทั้งหมด และต้องสามารถออกแบบระบบให้ตอบโจทย์ความต้องการของธุรกิจได้ ซึ่งตรงกับความรู้ที่สอบใน Certification นี้พอดี หรือท่านที่ต้องการสอบวัดความรู้ก่อนไป Professiona Level ผมว่าชุดข้อสอบนี้เป็นจุดเริ่มต้นที่ดีครับ
ประสบการณ์สอบ Beta Associate Data Practitioner
ผมมีโอกาสได้สอบเวอร์ชัน Beta ของ Certification นี้ ซึ่งถือว่าเป็นคนหนึ่งในกลุ่มแรกๆ ของโลกที่ได้สัมผัสข้อสอบเลยทีเดียว ข้อสอบทั้งหมดมี 73 ข้อ ใช้เวลาสอบประมาณ 2.30 ชั่วโมง ซึ่งถือว่านานกว่า Certification อื่นๆ ที่ผมเคยสอบมา แต่ก็ถือว่าน้อยลงเมื่อเทียบกับ Machine Learning Engineer ภาคข้อสอบใหม่ที่ใช้เวลาถึง 4 ชั่วโมง จุดแตกต่างของ Beta คือเราจะยังไม่ทราบผลเลยทันที ต้องรอ Google ประมวลผลและแจ้งกลับมาในอีก 3-4 สัปดาห์ครับ มีเวลาให้ได้ลุ้นกันอีกทีหากท่านใดต้องการลงลึกถึงระดับของ Certification บน Google Cloud และได้ประสบการณ์การสอบแบบ Beta ลองอ่าน Blog แชร์ประสบการณ์ Professional Machine Learning Engineer และแนวทางการสอบฉบับอัปเดตปี 2024 นี้ได้เลยครับ
ความยากง่ายของข้อสอบ
จากประสบการณ์ส่วนตัว ผมมองว่าข้อสอบค่อนข้างยากกว่าที่คาดไว้มาก โดยเฉพาะส่วนของ Data Pipeline และ Data Management ซึ่งต้องมีความเข้าใจในรายละเอียดของแต่ละบริการของ Google Cloud อย่างลึกซึ้ง Google แนะนำว่าควรมีประสบการณ์อย่างน้อย 6 เดือนก่อนไปสอบ แต่ผมคิดว่าเอาเข้าจริงควรมีประสบการณ์ไม่ต่ำกว่า 2 ปี และมีความรู้ครอบคลุมเกี่ยวกับ BigQuery, Dataflow (Apache Beam), Composer (Airflow), AutoML, Looker โดยเฉพาะ LookML และ Looker Studio อย่างละเอียดครับ
สรุปเนื้อหาที่สอบ
เนื่องจากเป็นข้อสอบใหม่ครั้งแรก เราจึงไม่มีตัวอย่างข้อสอบ ทีมงานก็อาศัยอ่านจาก Exam Guide ดูแนวทางแล้วไปสอบครับ ซึ่งที่ผมจะแชร์ก็จะเป็นเนื้อหาว่า Exam Guide กับของจริงนั้นเหมือนหรือแตกต่างอย่างไร
จากเอกสารของ Google แบ่งเนื้อหาออกเป็น 4 ส่วนหลัก ได้แก่
- Data Preparation and Ingestion:
เน้นที่การเตรียมข้อมูล การเลือกใช้เครื่องมือในการดึงข้อมูล และการจัดเก็บข้อมูลให้เหมาะสม ศัพท์พื้นฐานอย่าง ETL, ELT, ETLT ต้องเข้าใจและเลือกว่ามันเป็นแบบไหนตาม Requirments ครับ เช่น- ต้อง Cleansing ก่อนเก็บข้อมูล หรือเก็บข้อมูลก่อนแล้ว Cleansing ได้
- มี Concern เรื่อง Sensitive Data ไหม
- ต้องใช้ Service แบบไหนถึงโอนย้ายข้อมูลตามความเหมาะสม
- จัดเก็บ Data จากแต่ละ Application ควรใช้ Database แบบใด
- หาก Concern เรื่องของ Availability ควรออกแบบอย่างไร
- แอบมีเรื่องของ Database Migration เข้ามาเสริมนิดหน่อยครับ
- Data Analysis and Presentation: เน้นการวิเคราะห์ข้อมูลด้วย BigQuery และ Jupyter Notebook การสร้าง Dashboard ด้วย Looker และการสร้าง Model ด้วย Machine Learning ตรงส่วนนี้เหมือนเราต้องสวมหมวกเป็น Business Users หรือเป็น BI Users ครับ สิ่งที่ควรรู้ เช่น
- การเลือก BI ที่เหมาะสมกับ Users
- เรื่อง Data Model บน Looker และ Looker Studio
- ควรเข้าใจการสร้าง Custom field บน Looker
- เข้าใจ LookML เพื่อ Implement ให้เหมาะสมกับ Business Use Case
- การใช้ ML แบบที่ไม่ต้องลง Python ในสภาวะที่เรามีข้อจำกัด เช่น Cost หรือทรัพยากรบุคคลว่าใช้ตัวใดดี เช่น BigQuery ML, AutoML
- ควรเข้าใจโครงสร้าง BigQuery ML และ AutoML
- การประยุกต์ใช้ LLMs เข้ามาอย่าง Gemini
- Data Pipeline Orchestration: เน้นการออกแบบและสร้าง Data Pipeline เพื่อทำการประมวลผลข้อมูล ตรงนี้องค์ความรู้หลักคือการใช้ Airflow, Apache Beam, Spark หรืออื่น ๆ ครับ
- ควรเลือก Tools ให้เหมาะสม เช่น Spark ก็เป็น Dataproc เหมาะกับ process ข้อมูลใหญ่ ๆ บน Lake
- ถ้าเป็น Real-time Pipeline ต้องเลือกอะไร เช่น Dataflow
- การ Handle พวก Real-time Data กับ Pub/Sub ควรเข้าใจพวก BigQuery Subscriptions ครับ
- การ Manage Pipeline ถ้า Fail ต้องไปดูที่ไหน และทำอย่างไรต่อ
- ถ้าจะ Orchestrate ต้องใช้ตัวไหนถึงจะเหมาะสม เช่น Composer, BigQuery Scheduled queries, Dataproc Workflow Templates หรือแม้กระทั่ง Cloud Workflow
- Data Management: เน้นการจัดการการเข้าถึงข้อมูล การจัดการ Lifecycle ของข้อมูล และการรักษาความปลอดภัยของข้อมูล ตรงนี้ผมมองเป็นเรื่อง Data Governance เป็นหลักครับ เรื่องของ Life Cycle ข้อมูลควรมีพื้นฐานไว้ก็ดีครับ เช่น
- การใช้ IAM การให้สิทธิ์แบบ At least privilege
- Storage Class บน Cloud Storage
- การสร้าง Policy ต่าง ๆ กับ Data เช่น กำหนดวัน Expire ไม่ว่าจะเป็นระดับไฟล์ หรือระดับ Partition บน BigQuery เองก็ดี
- การ Backup การทำ Snapshot หรือ BigQuery Time Travel แบบนักท่องเวลาย้อนหาข้อมูลควรมีความเข้าใจครับว่าสำรองข้อมูลแบบไหนดี
- การแชร์ข้อมูลแบบต่าง ๆ เช่น ใช้ Analytic Hubs
- ไม่ได้มีแค่ BigQuery อย่างเดียว ต้องรู้ Cloud SQL ด้วย เฉพาะการทำ Replica ช่วยอะไร ควรตั้งเครื่องแบบไหนดี
- รู้จัก Security Key แบบต่าง ๆ เช่น CSEK, CMEK, GMEK, KMS ให้ Comply กับองค์กร
คำแนะนำสำหรับผู้ที่สนใจสอบ
- เข้าใจ Use Case: ข้อสอบไม่ได้ถามว่า Service นี้คืออะไร แต่ถามเป็น Use Case แล้วเลือก Tools หรือวิธีให้เหมาะสมครับ ตรงนี้สำคัญมาก
- ศึกษาเอกสารอย่างละเอียด: เอกสารของ Google มีเนื้อหาครอบคลุมทุกหัวข้อที่สอบใน https://cloud.google.com ส่วนใหญ่จะเป็น Word หรือ วลีในเอกสารของ Google มากกว่าโดยเฉพาะหัวข้อ Best practices
- ฝึกทำ Lab: ลองทำ Lab ต่าง ๆ บน Google Cloud เพื่อฝึกปฏิบัติจริง เช่น Associate Data Practitioner Learning Path
- มีประสบการณ์จริง: การมีประสบการณ์ทำงานจริงจะช่วยให้เข้าใจเนื้อหาได้ดีขึ้น
ข้อมูลอื่น ๆ ที่น่าสนใจหลังสอบ Certification เสร็จ
หลังจากที่เราสอบเสร็จแล้วเรียบร้อยก็จะทราบผลทันที รวมถึงจะมีอีเมลแจ้งผลอย่างเป็นทางการอีกครั้งภายใน 7 วัน และมี Perk/Swag เป็นของรางวัลเข้าร่วมกลุ่ม Google Cloud Certified ครับ
โดยปกติ Professional Google Cloud certifications จะมีอายุ 2 ปี และ The Cloud Digital Leader and the Associate certifications จะมีอายุ 3 ปีครับ หลังจากนั้นจะมีเมลแจ้งเตือนหมดอายุให้เรา Recertification และถ้าใคร Recertificate ผ่านใน Period ที่กำหนด อายุของใบรับรองเราอันเดิมก็จะมีอายุที่ยาวขึ้นครับและจะต้อนรับทุกท่านเข้าสู่แก๊ง Google Cloud Recertification ครับ
หากต้องการทราบการ Recertification และประสบการณ์การสอบ Professional Data Engineer สามารถอ่านเพิ่มเติมได้ที่ Blog นี้ครับ
บทสรุป
Google Cloud Associate Data Practitioner เป็น Certification ที่น่าสนใจสำหรับคนที่ต้องการพัฒนาทักษะในการบริหารจัดการข้อมูลบน Google Cloud หากคุณมีความสนใจในด้าน Data Engineering และอยากจะพัฒนาตัวเองให้ก้าวไปอีกขั้น ผมแนะนำให้ลองศึกษาและสอบ Certification นี้ดูครับ