13315607_656597964487547_5077736424489554284_n

วันที่ 3  มีนาคมนี้ทาง IMC Institute จะจัดฟรีสัมมนา Big Data User Group 1/2016 โดยครั้งนี้เป็น Theme  เรื่อง Data Lake: Redefine Data WareHouse ซึ่งงานนี้ได้รับการสนับสนุนจาก  Hitachi Data Systems และบริษัท Vintcom โดยมีสำนักงานรัฐบาลอิเล็กทรอนิกส์ (องค์กรมหาชน) หรือ EGA มาร่วมจัดงาน

เมื่อถึงหลักการของการพัฒนาระบบข้อมูล ในอดีตเราก็จะนึกถึงการทำ DataBase ตามด้วยการทำ Data WareHouse จนบางครั้งบางคนคิดไปว่าเราต้องทำโปรเจ็ค Data WareHouse เพื่อที่จะจัดระเบียบข้อมูลในหน่วยงาน ทำ Data Cleansing และ Data Governance ต่างๆก่อนที่จะทำโครงการ Big Data ซึ่งรูปแบบในการทำ Data WareHouse โดยมากมักจะมีขั้นตอนต่างๆคือ

  • การออกแบบระบบจาก Top Down หรือ  Bottom Up
  • กำหนด  Data Model
  • Extract Transform Load (ETL)
  • การทำ Data Governance
  • จัดหา BI Tool สำหรับ Data WareHouse
  • จัดทำรายงาน

ขั้นตอนการทำ Data WareHouse จะเป็นรูปแบบเดิมที่เน้นข้อมูลที่เป็น Structure แล้วจึงทำการดึงข้อมูลมาวิเคราะห์  (Structure -> Ingest -> Analyse)  โดยจะต้องใช้ทรัพยากรที่มีความจุจำกัดและไม่มีความหลากหลาย แต่ในโลกของ Big Data ข้อมูลจะมีความหลากหลาย จะมีจำนวนเข้ามามหาศาลและเพิ่มขึ้นอย่างไม่จำกัด ดังนั้น เราจำเป็นจะต้องเปลี่ยนหลักการเป็น การดึงข้อมูลหลากหลายชนิดทำการวิเคราะห์แล้วจึงทำการเก็บจ้อมูล (Ingest -> Analyse -> Structure)

หลักการที่กล่าวใหม่ข้างต้นคือ Data Lake ซึ่งเป็นเรื่องใหม่ในโลกของ Big Data ที่ใช้ในปัจจุบัน ซึ่งจะประกอบไปด้วย Component ต่างๆดังรูปที่ 1 และเหตุที่หลักการเปลี่ยนแปลงไปก็เพราะเทคโนโลยี Big Data ใหม่ได้ช่วยทำให้สิ่งต่างๆเหล่านี้ทำได้ดังรูปที่ 2 อาทิเช่น

  • เทคโนโลยีการเก็บข้อมูล Unstructure ขนาดใหญ่อย่าง Hadoop HDFS, Amazon S3 หรือ NoSQL
  • เทคโนโลยีในการประมวลผลข้อมูลอย่าง MapReduce, Hive, Spaek, Impala
  • เทคโนโลยีในการทำ Data Acquisition อย่าง KafKa, Sqoop, Flume
  • เทคโนโลยีในการแสดงผลข้อมูลใหม่อย่าง  Pentaho BI, Tableau

Screenshot 2016-02-21 08.45.13.png

รูปที่ 1 Data Lake Components [Source: Building the Enterprise Data Lake: A look at architecture,  Mark Madsen]

Screenshot 2016-02-21 08.26.19

รูปที่ 2 หลักการของ  Data Lake

ความแตกต่างระหว่าง Data Lake เมื่อเทียบกับ Data WareHouse ที่สำคัญมีดังนี้

  • Data Lake จะเก็บข้อมูลทั้งหมด
  • Data Lake สนับสนุนข้อมูลทุกชนิดไม่แค่ข้อมูลแบบ Structure
  • Data Lake มีเพื่อให้ผู้ใช้ทุกประเภทสามารถใช้งานได้
  • Data Lake สามารถติดตั้งได้ง่ายและเปลี่ยแปลงได้เร็ว
  • Data Lake จะประมวลและวิเคราะห์ข้อมูลได้รวดเร็วกว่า

ซึ่งทาง  AWS ก็สรุปความแตกต่างระหว่าง Data Lake และ Data WareHouse ไว้ดังรูปที่ 3

Screenshot 2016-02-21 08.31.58

รูปที่ 3 Data Lake v.s Data WareHouse

สำหรับรายละเอียดทั้งหมดคงได้มาฟังกันในงานสัมมนาวันที่ 3 มีนาคมนี้ แต่ต้องขอบอกว่าตอนนี้ที่นั่งเต็มและปิดรับลงทะเบียนแล้ว

ธนชาติ นุ่มมนท์

IMC Institute

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s