Big Data Architecture #8: การจัดการข้อมูลบน Data Lake

เมื่อกล่าวถึงสถาปัตยกรรมข้อมูลโดยใช้ Data Lake เราจะเข้าใจได้ว่าหลักการคือจะให้ความสำคัญกับข้อมูลทุกอย่าง เราจะเน้นที่จะนำข้อมูลดิบ (Raw Data) เข้าไปเก็บใน Data Lake แล้วจึงค่อยแปลงข้อมูลก่อนทำการประมวลผล กล่าวคือ เราจะเน้นหลักการการทำ ELT (Extract, Load แล้วค่อย Transform) ข้อมูล ที่จะเป็นวิธีการ Schema on Read ซึ่งแตกต่างจากกรณีของ Data Warehouse ที่จะเป็นการทำ ETL (Extract, Transform and Load) ข้อมูล ซึ่งเป็นการทำ Schema on Write

source: https://www.dragon1.com/demo/data-lake-template

Data Lake แม้จะเป็นการเก็บข้อมูลดิบ แต่ไม่ใช่ว่าจะมีแต่ข้อมูลดิบที่เก็บใน Data Lake ปกติแล้วข้อมูลที่อยู่ใน Data Lake จะถูกแบ่งออกเป็นโซน โดยแต่ละโซนจะมีการเก็บข้อมูลที่ต่างกัน และมีผู้ใช้ข้อมูลในแต่ละโซนที่แตกต่างกัน ซึ่งโดยทั่วไปข้อมูลใน Data Lake จะแบ่งออกเป็นสามโซนดังนี้

Bronze Zone หรือบางทีก็เรียกว่า Raw Zone หรือ Landing Zone เป็นโซนของ Data Lake ที่ใช้เก็บข้อมูลดิบจากแหล่งต่างๆที่นำเข้ามาสู่ระบบ ข้อมูลในโซนนี้ยังเป็นข้อมูลดิบ อาจยังขาดความถูกต้อง ยังไม่สมบูรณ์ ต้องการ Clean ข้อมูลก่อน ถึงจะนำไปใช้งานได้ โดยมากคนที่จะใช้ข้อมูลในโซนนี้จะเป็น Data Engineer ที่จะทำกระบวนการ Data Preperation หรือแปลงข้อมูลให้สมบูรณ์ขึ้นก่อนนำไปใช้ในขั้นต่อไป
Silver Zone หรือบางทีก็เรียกว่า Trusted Zone หรือ Process Zone เป็นโซนของ Data Lake ที่ใช้เก็บข้อมูลที่ทาง Data Engineer ได้ทำแปลงข้อมูลจาก Raw Zoneให้สมบูรณ์ขึ้นแล้ว และสามารถนำมาใช้ในการวิเคราะห์ข้อมูลทั้งแบบ Descriptive หรือ Predictive analytics ได้ ผู้ที่จะใช้ข้อมูลในโซนนี้อาจเป็น Business Analyst หรือ Data Scientist
Gold Zone หรือบางทีเรียกว่า Refined Zone หรือ Access Zone ซึ่งเป็นโซนของ Data Lake ที่ใช้เก็บข้อมูลที่อาจจะผ่านการเชื่อมโยงข้อมูลจากหลายชุด หรือทีอาจเป็น เพื่อนำมาข้อมูลที่ผ่านจาก Silver Zone มาเพื่อให้ผู้ใช้ทั่วไปใช้งานเช่น Business User มาดูและวิเคาะห์ข้อมูลผ่าน Dashboard

จากการที่ Data Lake แบ่งข้อมูลเป็นหลายโซน เราคงจะเห็นได้ว่า ข้อมูลที่เก็บใน Data Lake อาจมีปริมาณมากกว่าข้อมูลจริง และจำเป็นจะต้องเก็บข้อมูลซ้ำในแต่ละโซน และบางครั้ง เพื่อให้ข้อมูลมีขนาดเล็กลงก็อาจจำเป็นต้องเก็บข้อมูลใน Format ที่มีการบีบอัดข้อมูลเช่น Parquet หรือ ORC

Data Governance ก็เป็นอีกประเด็นหนึ่งที่สำคัญในการบริหารจัดการ Data Lake เพราะมีข้อมูลที่หลากหลาย จึงจำเป็นต้องมี Data Catalog ที่ดี มีการจัดเก็บ Metadata และ การดูแลเรื่องความปลอดภัยของข้อมูล (Data security) นอกจากนี้ผู้ใช้ Data Lake อาจจะต้องทำ Data Preparation เป็นประจำเมื่อมีข้อมูลใหม่เข้ามาหรือข้อมูลใน Raw Zone มีการเปลี่ยนแปลง

ดังนั้นเราจะเห็นได้ว่า การบริหารจัดการ Data Lake จะมีความซับซ้อน และต้องมี Data Engineer ในการที่จะดูแลข้อมูลในโซนต่างๆ กับต้องมีระบบ Data Governance ทีดี

ธนชาติ นุ่มนนท์

IMC Institute

——-

บทความอื่นๆที่เกี่ยวข้อง

ตอนที่ 1 : Big Data Pipeline ทำไมไม่ใช่ Data Warehouse
ตอนที่ 2 : สถาปัตยกรรมบน Data Lake
ตอนที่ 3 : จาก Hadoop แบบ On-Premise สู่การใช้บริการบน Public cloud
ตอนที่ 4 : สถาปัตยกรรม Data platform บน Public cloud
ตอนที่ 5 : สถาปัตยกรรม Data platform สำหรับประมวลผลข้อมูลแบบ Streaming
ตอนที่ 6 : สถาปัตยกรรม Cloud Data platform สำหรับประมวลผลข้อมูลทั้งแบบ Batch และ Streaming
ตอนที่ 7: แนวโน้มสถาปัตยกรรม Big Data 2022

Big Data Architecture #8: การจัดการข้อมูลบน Data Lake

เผยแพร่โดย thanachart

ใส่ความเห็น ยกเลิกการตอบ

Big Data Architecture #8: การจัดการข้อมูลบน Data Lake

แบ่งปันสิ่งนี้:

ที่เกี่ยวข้อง

เผยแพร่โดย thanachart

ใส่ความเห็น ยกเลิกการตอบ