วันที่ 3 มีนาคมนี้ทาง IMC Institute จะจัดฟรีสัมมนา Big Data User Group 1/2016 โดยครั้งนี้เป็น Theme เรื่อง Data Lake: Redefine Data WareHouse ซึ่งงานนี้ได้รับการสนับสนุนจาก Hitachi Data Systems และบริษัท Vintcom โดยมีสำนักงานรัฐบาลอิเล็กทรอนิกส์ (องค์กรมหาชน) หรือ EGA มาร่วมจัดงาน
เมื่อถึงหลักการของการพัฒนาระบบข้อมูล ในอดีตเราก็จะนึกถึงการทำ DataBase ตามด้วยการทำ Data WareHouse จนบางครั้งบางคนคิดไปว่าเราต้องทำโปรเจ็ค Data WareHouse เพื่อที่จะจัดระเบียบข้อมูลในหน่วยงาน ทำ Data Cleansing และ Data Governance ต่างๆก่อนที่จะทำโครงการ Big Data ซึ่งรูปแบบในการทำ Data WareHouse โดยมากมักจะมีขั้นตอนต่างๆคือ
- การออกแบบระบบจาก Top Down หรือ Bottom Up
- กำหนด Data Model
- Extract Transform Load (ETL)
- การทำ Data Governance
- จัดหา BI Tool สำหรับ Data WareHouse
- จัดทำรายงาน
ขั้นตอนการทำ Data WareHouse จะเป็นรูปแบบเดิมที่เน้นข้อมูลที่เป็น Structure แล้วจึงทำการดึงข้อมูลมาวิเคราะห์ (Structure -> Ingest -> Analyse) โดยจะต้องใช้ทรัพยากรที่มีความจุจำกัดและไม่มีความหลากหลาย แต่ในโลกของ Big Data ข้อมูลจะมีความหลากหลาย จะมีจำนวนเข้ามามหาศาลและเพิ่มขึ้นอย่างไม่จำกัด ดังนั้น เราจำเป็นจะต้องเปลี่ยนหลักการเป็น การดึงข้อมูลหลากหลายชนิดทำการวิเคราะห์แล้วจึงทำการเก็บจ้อมูล (Ingest -> Analyse -> Structure)
หลักการที่กล่าวใหม่ข้างต้นคือ Data Lake ซึ่งเป็นเรื่องใหม่ในโลกของ Big Data ที่ใช้ในปัจจุบัน ซึ่งจะประกอบไปด้วย Component ต่างๆดังรูปที่ 1 และเหตุที่หลักการเปลี่ยนแปลงไปก็เพราะเทคโนโลยี Big Data ใหม่ได้ช่วยทำให้สิ่งต่างๆเหล่านี้ทำได้ดังรูปที่ 2 อาทิเช่น
- เทคโนโลยีการเก็บข้อมูล Unstructure ขนาดใหญ่อย่าง Hadoop HDFS, Amazon S3 หรือ NoSQL
- เทคโนโลยีในการประมวลผลข้อมูลอย่าง MapReduce, Hive, Spaek, Impala
- เทคโนโลยีในการทำ Data Acquisition อย่าง KafKa, Sqoop, Flume
- เทคโนโลยีในการแสดงผลข้อมูลใหม่อย่าง Pentaho BI, Tableau
รูปที่ 1 Data Lake Components [Source: Building the Enterprise Data Lake: A look at architecture, Mark Madsen]
รูปที่ 2 หลักการของ Data Lake
ความแตกต่างระหว่าง Data Lake เมื่อเทียบกับ Data WareHouse ที่สำคัญมีดังนี้
- Data Lake จะเก็บข้อมูลทั้งหมด
- Data Lake สนับสนุนข้อมูลทุกชนิดไม่แค่ข้อมูลแบบ Structure
- Data Lake มีเพื่อให้ผู้ใช้ทุกประเภทสามารถใช้งานได้
- Data Lake สามารถติดตั้งได้ง่ายและเปลี่ยแปลงได้เร็ว
- Data Lake จะประมวลและวิเคราะห์ข้อมูลได้รวดเร็วกว่า
ซึ่งทาง AWS ก็สรุปความแตกต่างระหว่าง Data Lake และ Data WareHouse ไว้ดังรูปที่ 3
รูปที่ 3 Data Lake v.s Data WareHouse
สำหรับรายละเอียดทั้งหมดคงได้มาฟังกันในงานสัมมนาวันที่ 3 มีนาคมนี้ แต่ต้องขอบอกว่าตอนนี้ที่นั่งเต็มและปิดรับลงทะเบียนแล้ว
ธนชาติ นุ่มมนท์
IMC Institute
กุมภาพันธ์ 2559