Data Lake: Redefine Data WareHouse

วันที่ 3 มีนาคมนี้ทาง IMC Institute จะจัดฟรีสัมมนา Big Data User Group 1/2016 โดยครั้งนี้เป็น Theme เรื่อง Data Lake: Redefine Data WareHouse ซึ่งงานนี้ได้รับการสนับสนุนจาก Hitachi Data Systems และบริษัท Vintcom โดยมีสำนักงานรัฐบาลอิเล็กทรอนิกส์ (องค์กรมหาชน) หรือ EGA มาร่วมจัดงาน

เมื่อถึงหลักการของการพัฒนาระบบข้อมูล ในอดีตเราก็จะนึกถึงการทำ DataBase ตามด้วยการทำ Data WareHouse จนบางครั้งบางคนคิดไปว่าเราต้องทำโปรเจ็ค Data WareHouse เพื่อที่จะจัดระเบียบข้อมูลในหน่วยงาน ทำ Data Cleansing และ Data Governance ต่างๆก่อนที่จะทำโครงการ Big Data ซึ่งรูปแบบในการทำ Data WareHouse โดยมากมักจะมีขั้นตอนต่างๆคือ

การออกแบบระบบจาก Top Down หรือ Bottom Up
กำหนด Data Model
Extract Transform Load (ETL)
การทำ Data Governance
จัดหา BI Tool สำหรับ Data WareHouse
จัดทำรายงาน

ขั้นตอนการทำ Data WareHouse จะเป็นรูปแบบเดิมที่เน้นข้อมูลที่เป็น Structure แล้วจึงทำการดึงข้อมูลมาวิเคราะห์ (Structure -> Ingest -> Analyse) โดยจะต้องใช้ทรัพยากรที่มีความจุจำกัดและไม่มีความหลากหลาย แต่ในโลกของ Big Data ข้อมูลจะมีความหลากหลาย จะมีจำนวนเข้ามามหาศาลและเพิ่มขึ้นอย่างไม่จำกัด ดังนั้น เราจำเป็นจะต้องเปลี่ยนหลักการเป็น การดึงข้อมูลหลากหลายชนิดทำการวิเคราะห์แล้วจึงทำการเก็บจ้อมูล (Ingest -> Analyse -> Structure)

หลักการที่กล่าวใหม่ข้างต้นคือ Data Lake ซึ่งเป็นเรื่องใหม่ในโลกของ Big Data ที่ใช้ในปัจจุบัน ซึ่งจะประกอบไปด้วย Component ต่างๆดังรูปที่ 1 และเหตุที่หลักการเปลี่ยนแปลงไปก็เพราะเทคโนโลยี Big Data ใหม่ได้ช่วยทำให้สิ่งต่างๆเหล่านี้ทำได้ดังรูปที่ 2 อาทิเช่น

เทคโนโลยีการเก็บข้อมูล Unstructure ขนาดใหญ่อย่าง Hadoop HDFS, Amazon S3 หรือ NoSQL
เทคโนโลยีในการประมวลผลข้อมูลอย่าง MapReduce, Hive, Spaek, Impala
เทคโนโลยีในการทำ Data Acquisition อย่าง KafKa, Sqoop, Flume
เทคโนโลยีในการแสดงผลข้อมูลใหม่อย่าง Pentaho BI, Tableau

Screenshot 2016-02-21 08.45.13.png

รูปที่ 1 Data Lake Components [Source: Building the Enterprise Data Lake: A look at architecture, Mark Madsen]

Screenshot 2016-02-21 08.26.19

รูปที่ 2 หลักการของ Data Lake

ความแตกต่างระหว่าง Data Lake เมื่อเทียบกับ Data WareHouse ที่สำคัญมีดังนี้

Data Lake จะเก็บข้อมูลทั้งหมด
Data Lake สนับสนุนข้อมูลทุกชนิดไม่แค่ข้อมูลแบบ Structure
Data Lake มีเพื่อให้ผู้ใช้ทุกประเภทสามารถใช้งานได้
Data Lake สามารถติดตั้งได้ง่ายและเปลี่ยแปลงได้เร็ว
Data Lake จะประมวลและวิเคราะห์ข้อมูลได้รวดเร็วกว่า

ซึ่งทาง AWS ก็สรุปความแตกต่างระหว่าง Data Lake และ Data WareHouse ไว้ดังรูปที่ 3

Screenshot 2016-02-21 08.31.58

รูปที่ 3 Data Lake v.s Data WareHouse

สำหรับรายละเอียดทั้งหมดคงได้มาฟังกันในงานสัมมนาวันที่ 3 มีนาคมนี้ แต่ต้องขอบอกว่าตอนนี้ที่นั่งเต็มและปิดรับลงทะเบียนแล้ว

ธนชาติ นุ่มมนท์

IMC Institute

กุมภาพันธ์ 2559

Data Lake: Redefine Data WareHouse

เผยแพร่โดย thanachart

ใส่ความเห็น ยกเลิกการตอบ

Data Lake: Redefine Data WareHouse

แบ่งปันสิ่งนี้:

ที่เกี่ยวข้อง

เผยแพร่โดย thanachart

ใส่ความเห็น ยกเลิกการตอบ