จะทำ Big Data ต้องเริ่มต้นที่ทำ Data Lake

Screenshot 2018-03-24 14.05.42

ช่วงนี้เห็นหน่วยงานต่างๆออกมาพูดเรื่อง Big Data กันอย่างมาก บางคนก็บอกว่าหน่วยงานใช้ Big Data ในการบริหารและตัดสินใจ บ้างก็บอกว่าใช้ในการวิเคราะห์พฤติกรรมประชาชนหรือลูกค้า เราพูดเหมือนกับว่าตอนนี้บ้านเราเรื่องนี้ก้าวหน้าไปมาก เสมือนว่าเรามีข้อมูลใหญ่มหาศาลที่เก็บและนำมาใช้แล้ว เสมือนว่าเรามีโครงสร้างพื้นฐานด้านข้อมูลที่ดีพอ และเสมือนว่าเรามีนักวิเคราะห์ข้อมูลจำนวนมาก

แต่พอหันกลับไปถามว่า แล้ว Big Data ที่ว่าข้อมูลใหญ่แค่ไหน บางคนพูดแค่หลักล้านต้นๆ ไม่มี Transaction Data พอพูดถึงข้อมูลที่เปิดออกมา (Open data) ก็กลายเป็นแค่ Summary data บ้างก็เปิดมาในรูป PDF  ไม่ใช่ข้อมูลในฟอร์แมทดิจิทัลที่พร้อมใช้งาน (อย่าง CSV) ทั้งที่การทำ Big Data ต้องเน้นที่การมี Transactional Data  หรือ Detail Data ที่เก็บรายละเอียดให้มากที่สุด ซึ่งผมเคยเขียนบทความเรื่อง “Big data ต้องเริ่มต้นจากการวิเคราะห์ Transactional data ไม่ใช่เล่นกับ summary data” แต่ก็แปลกใจที่หลายๆหน่วยงานบอกว่าทำ Big Data แต่แทบไม่มีการนำ Transactional Data มาวิเคราะห์แต่อย่างใด

อีกประเด็นที่สำคัญคือโครงสร้างพื้นฐาน ที่เคยเน้นบ่อยๆว่า เราต้องปรับโครงสร้างพื้นฐานด้านข้อมูล (Information infrastructure) โดยเน้นที่การทำ Data Lake แล้วใช้ Data Science ไม่ใช่การทำ Data Warehouse แล้วใช้ Business Intelligence ในรูปแบบเดิมๆ ซึ่งผมเคยเขียนเรื่องนี้ในบทความ “การทำโครงการ Big Data อย่างรวดเร็ว ควรเริ่มอย่างไร” แต่ในปัจจุบันหลายๆหน่วยงานก็ยังไม่เข้าใจกับการทำ Data Lake แล้วก็ยังเน้นไปที่ Data Warehouse อย่างเดิมทั้งๆที่ Data Warehouse จะไม่สามารถรองรับข้อมูลขนาดใหญ่ (Volume) หรือข้อมูลหลากหลายประเภท (Variety) ซึ่งเป็นนิยามสำคัญของ Big Data ได้

Data Lake คืออะไร

Tamara Dull จาก SAS ให้คำนิยามของ Data Lake ไว้ว่า

Dark lake is a storage repository that holds a vast amount of raw data in its native format, including structured, unstructured and semi-structured data. The data structure and requirements are not defined until the data is needed.

จะเห็นได้ว่า Data Lake คือคลังข้อมูลขนาดใหญ่มหาศาล ซึ่งเราจะใช้เก็บข้อมูลที่เป็น Raw data ในหลากหลายรูปแบบทั้ง  Structure, unstructure หรือ semi-structure โดยข้อมูลที่เก็บจะยังไม่ต้องคำนึงถึงโครงสร้างหรือนิยามการใช้งานในตอนต้น

Screenshot 2018-03-27 09.52.29

รูปที่ 1 องค์ประกอบต่างๆของ  Data Lake

เทคโนโลยีที่ใช้เป็น Data Lake โดยมากคือ Hadoop เพราะมีราคาถูกกว่าเทคโนโลยีอื่นๆและมีเครื่องมือในการประมวลผลได้ ในขณะที่ Database หรือ No SQL จะมีข้อจำกัดที่ขนาดของข้อมูลหรือรูปแบบข้อมูลที่จะนำมาเก็บซึ่งอาจได้เฉพาะ  Structure data หรือ semi-structure data บางประเภท นอกจาก Hadoop ก็อาจมีเทคโนโลยีอื่นที่เหมาะในการทำเป็น Data lake ก็คือ Cloud storage หรือ Object storage ที่ราคาถูกกว่า ซึ่งขึ้นอยู่กับหน่วยงานว่าจะเลือกเทคโนโลยีใดมาเป็น Data Lake

ข้อมูลที่เก็บใน Data Lake  จะเป็น Raw Data ที่ไม่สามารถแก้ไขได้ แต่จะทำให้ผู้ใช้สามารถตรวจสอบและดูรายละเอียดของข้อมูลได้มากที่สุด และอาจดูข้อมูลย้อนหลังได้ แต่จุดด้อยของข้อมูลใน Data Lake คือยังเป็นข้อมูลดิบที่อาจไม่สมบูรณ์และขาดความถูกต้อง (Poor quality of data) ซึ่งผู้ใช้งานเช่น Data developer หรือ Data science จะต้องทำการ Cleansing ข้อมูลก่อนให้ Data analyst หรือ Business user นำไปใช้งาน นอกจากก็อาจมีเรื่องของความปลอดภัยของข้อมูล ดังนั้นการใช้งาน Data lake จำเป็นต้องมีการทำ Data Governance ที่ดี

 การจัด Zone สำหรับ Data Lake 

เนื่องจาก Data Lake เป็นที่เก็บข้อมูลขนาดใหญ่ซึ่งมาจากหลายแหล่ง รวมถึงข้อมูลที่ผ่านการประมวลผลแล้ว ดังนั้นการติดตั้ง Data Lake จะต้องทำการแบ่งออกเป็นโซนต่างๆ ทั้งหมด 4 ส่วน ดังนี้

Screenshot 2018-03-27 10.07.21

รูปที่  2 แสดงโซนต่างๆ ของ Data Lake (จาก Data Lake Governance Best Practices, Parth Patel and Adam Diaz)

  1. Transient Zone ข้อมูลที่เข้าสู่ Data Lake จะถูกนำมาพักไว้ใน Zone นี้ก่อนบันทึกลง Storage  
  2. Raw Zone เป็นข้อมูลดิบที่ยังไม่ผ่านการทำความสะอาดหรือปรับรูปแบบใดๆ ซึ่งโดยส่วนใหญ่แล้วนักพัฒนาข้อมูล หรือนักวิทยาศาสตร์ข้อมูลมักจะใช้ข้อมูลใน Raw Zone นี้
  3. Trusted Zone เป็นข้อมูลที่มาจาก Raw Zone ซึ่งผ่านกระบวนการทำความสะอาดข้อมูลตามมาตรฐานและกฎเกณฑ์ที่กำหนดแล้วเพื่อคุณภาพข้อมูล ข้อมูลใน Zone นี้เป็นแหล่งข้อมูลหลักที่จะถูกใช้โดยนักวิเคราะห์ข้อมูลและผู้ใช้โดยทั่วไป เพื่อให้สามารถใช้ข้อมูลได้ง่าย
  4. Refined Zone เป็นข้อมูลที่ผ่านกระบวนการประมวลผลแล้ว

การจัดทำ Data Catalog

การแบ่งโฟลเดอร์ต่างๆ ใน Data Lake อาจช่วยทำให้ผู้ใช้สามารถเข้าใจโครงสร้างข้อมูลต่างๆ ที่อยู่ใน Hadoop Cluster ได้ดีขึ้น แต่ยังจำเป็นต้องหาเครื่องมือมาทำ Data Catalog เพื่อ

  • เพิ่มประสิทธิภาพของการค้นหาข้อมูล ทำให้ค้นหาข้อมูลได้เร็วและสะดวกขึ้น
  • จัดการสิทธิการเข้าถึงข้อมูลได้ดีขึ้น โดยเฉพาะข้อมูลที่อาจละเมิดสิทธิส่วนบุคคล
  • สามารถลดค่าใช้จ่ายในการเก็บข้อมูลซ้อนหรือกักตุนข้อมูล
  • สนับสนุนการติดตามข้อมูลตลอดทั้งวงจรชีวิต ของข้อมูลทำให้การทำ Data Governance สะดวกและปลอดภัยขึ้น โดยเฉพาะข้อมูลที่เกี่ยวข้องทางด้านกฎหมาย

ควรจะต้องเป็นเครื่องมือที่สามารถทำ Catalog ได้โดยอัตโนมัติและสามารถใช้งานได้โดยง่าย ซึ่งในปัจจุบันมีผู้ผลิตหลายราย เช่น Teradata Loom, Waterline Data Invertory, Cloudera Navigator, Informatica Governed หรือ Apache Atlas เป็นต้น

การใช้งาน Data Lake

เราสามารถสรุปตัวอย่างการทำงานต่างๆของ Data Lake ได้ในรูปที่ 3 ซึ่งจะเห็นขั้นตอนต่างๆในการใช้งาน Data Lake  (ในรูปคือ Hadoop ที่อาจใช้ Distribution ต่างๆอาทิเช่น Cloudera, Hortonworks หรือ  MapR) ดังนี้

Screenshot 2018-03-27 10.10.16

รูปที่  3 Data Lake ​Workflow (จาก Enterprise Data Lake: Architecture Using Big Data Technologies – Bhushan Satpute)

  1. มีการดึงมูลจากแหล่งต่างๆอาทิเช่น Transaction, OLTP, Document, IoT หรือ Social Media เข้ามาเก็บใน Data Lake
  2. ข้อมูลที่ดึงเข้ามาอาจเป็น Real-time streaming data ในบางกรณี
  3. กรณีข้อมูลที่เก็บใน Data lake เป็นข้อมูลที่มีความอ่อนไหว (sensitive data) เราอาจต้องทำการเข้ารหัสข้อมูล
  4. Data developer สามารถใช้เครื่องมือในการประมวลข้อมูลที่มากับ Data Lake เช่น Apache spark หรือ Hive เพื่อปรับปรุงข้อมูลให้มีคุณภาพมากขึ้น และอาจเก็บใน Trusted zone
  5. ทำการเคลื่อนย้ายข้อมูลที่มีคุณภาพมากขึ้นเข้าสู่ Data warehouse เพื่อให้นักวิเคราะห์ข้อมูล (Data Analyst) หรือผู้ใช้ทั่วไป (Business user) ใช้งานต่อ
  6. มีการสร้าง Schema หรือ meta-data ของข้อมูล รวมถึงการทำ Governance
  7. นักวิเคราะห์ข้อมูลหรือผู้ใช้ทั่วไป สามารถใช้เครื่องมืออย่าง Data visualization เพื่อวิเคราะห์ข้อมูลจาก  Data warehouse ได้
  8. Data scientist หรือ Data developer  ก็สามารถที่จะเข้าถึงข้อมูลของ Data Lake แล้วนำข้อมูลมาทำ Big data analytics ได้

ที่เขียนมาทั้งหมดนี้ก็เพื่อสร้างความเข้าใจให้เห็นภาพว่า หัวใจสำคัญของการทำ Big data เรื่องหนึ่งคือการพัฒนา Data Lake ในองค์กร

ธนชาติ นุ่มนนท์

IMC Institute

มีนาคม 2561

 

 

 

 

 

Mini Project ในหลักสูตร Big data certification

Screenshot 2018-04-02 08.54.14

เมื่อวันเสาร์ที่ 20 มกราคม ทาง IMC Institute ได้จัดให้ผู้เรียนหลักสูตร Big Data Certification รุ่นที่ 6 ที่เรียนกันมาสี่เดือนตั้งแต่เดือนกันยายนปีที่แล้ว รวม 120 ชั่วโมง ได้มานำเสนอ Mini-project ของตัวเองโดยมีผู้นำเสนอสามกลุ่มคือ

  • กลุ่ม Anime Recommendation ที่มีการนำข้อมูลการดูการ์ตูนจำนวน 7.8 ล้านเรคอร์ดจากหนังการ์ตูน 12,294 เรื่องจาก Kaggle มาทำ Recommendation โดยใช้ ALS algorithm, ทำ Clustering โดยใช้ K-Means algorithm และมีการวิเคราะห์จำนวนการดูหนังแบบ Real-time โดยใช่ KafKa และ Spark streaming (Slide การนำเสนอสามารถดูได้ที่ >> Anime slide)
  • กลุ่ม Telecom churn analysis ที่มีการวิเคราะห์การย้ายค่ายโทรศัพท์มือถือของผู้ใช้ โดยการนำข้อมูลมาวิเคราะห์ดูลักษณะของการย้ายค่าย ทำ Visualisation แสดงผลการวิเคราะห์ต่างๆและมีการทำ  Predictive analytic โดยใช้ Decision Tree Algorithm (Slide การนำเสนอสามารถดูได้ที่ >> Telecom churn slide)
  • กลุ่ม Crime Analysis เป็นการนำข้อมูลอาชญากรรมในเมือง Chicago จำนวน 6 ล้านเรคอร์ด มาทำ Classification โดยใช้ Decision Tree Algorithm เพื่อจะวิเคราะห์ว่าอาชญกรรมกรณีไหน ในสถานการณ์และวันอย่างไร ที่มีโอกาสที่จะจับผู้ร้ายได้สูง   (Slide การนำเสนอสามารถดูได้ที่ >> Crime analysis slide)

Screenshot 2018-01-21 13.22.52

ผมพบกว่านำเสนอของทั้งสามกลุ่ม เข้าใจหลักการของการทำ Big data ได้เป็นอย่างดีตั้งแต่ การทำความเข้าใจปัญหา การเตรียมข้อมูล การใช้เทคโนโลยีและเครื่องมือต่างๆ และรวมถึงการใช้ Algorithm ในการวิเคราะห์ แต่ผัญหาที่เรามักจะเห็นมนบ้านเรากลับเป็นเรื่องของข้อมูลที่ยังมีไม่มากทำให้ขาดโอกาสที่จะใช้ความรู้ในการวิเคราะห์ข้อมูลของบ้านเรามากกว่า ซึ่งหากมีข้อมูลคนที่ผ่านหลักสูตร Big data certification เหล่านี้จำนวน 6 รุ่นแล้ว ก็น่าจะเป็นกำลังสำคัญที่เข้ามาช่วยพัฒนาการวิเคราะห์ข้อมูลขนาดใหญ่ในบ้านเราได้ในอนาคต

สำหรับ IMC Institute เราก็จะจัดงานเพื่อให้ผู้ทีผ่านการอบรมหรือบุคคลทั่วไปได้ลองมาแข่งกันทำ Mini project ในลักษณะนี้ ในโครงการที่ชื่อว่า Big data hackathon โดยตั้งใจจะจัดขึ้นในวันที่ 24-25 กุมภาพันธ์นี้ โดยไม่มีค่าใช้จ่ายใดๆ ซึ่งผู้สนใจสามารถติดต่อเข้าร่วมโครงการสามารถดูรายละเอียดการสมัครได้ที่ www.imcinstitute.com/hackathon ภายในวันที่ 16 กุมภาพันธ์ พ.ศ. 2561

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2561

Big data ต้องเริ่มต้นจากการวิเคราะห์ Transactional data ไม่ใช่เล่นกับ summary data

ผมเคยเข้าไปหลายหน่วยงานที่มีความต้องการทำ Big Data Analytics แต่พอไปถามหาข้อมูลที่มีอยู่และจะให้หน่วยงานย่อยต่างๆรวบรวมมาก็มักจะมองเรื่องข้อมูลสรุป (Summary data) แต่หน่วยงานกลับคาดหวังว่าจะนำข้อมูลสรุปเหล่านี้มาวิเคราะห์ข้อมูลต่างๆเช่นพฤติกรรมลูกค้าหรือทำความเข้าใจกับปัญหาต่างๆอย่างละเอียด ซึ่งผมก็มักจะตอบไปว่าทำได้ยาก

การจะทำ Big Data Analytics ที่ดีได้ต้องมีข้อมูลที่เป็นรายละเอียดย่อยมากที่สุดเท่าที่ทำได้ อาทิเช่น Transactional data ที่อาจมองถึงการทำธุรกรรมทุกรายการ เพื่อให้เห็นภาพที่ชัดเจนขึ้น ผมขอเปรียบเทียบรูปที่ 1 ซึ่งเป็นข้อมูลสรุปที่บอกถึงการใช้บัตร Startbucks ของลูกค้ารายหนึ่ง กับข้อมูลที่เป็น Transaction ของลูกค้ารายเดียวกันในรูปที่ 2  จากข้อมูลสรุปของลูกค้าเราอาจเห็นเพียงว่าลูกค้ามีบัตรสามใบและเป็นลูกค้าบัตรทองที่มีวงเงินอยู่ 1,871.25 บาท แต่ถ้าจะถามและวิเคราะห์ข้อมูลต่างๆอาทิเช่น

  • ลูกค้ามาทาน Starbucks บ่อยแค่ไหน?
  • ลูกค้าจะมาร้านเวลาไหน และคาดการณ์ว่าเขาจะมาอีกเมื่อไร?
  • ลูกค้ามาทานกาแฟปกติคนเดียวหรือหลายคน?

ข้อมูลต่างๆเหล่านี้ ที่เราต้องการทำ Big Data Analytics ในลักษณะการคาดการณ์จะไม่สามารถที่จะหามาได้จากการใช้  Summary data  แต่ถ้าเรามีข้อมูลรายละเอียดอย่าง Transaction data ในรูปที่ 2 เราจะเห็นได้ว่าเราอาจพอคาดการณ์ได้ว่า ลูกค้ารายนี้มักจะมาทานกาแฟตอนเช้าและอาจมาคนเดียวโดยดูจากเวลาที่มาและอาจดูยอดเงินที่ใช้จ่าย และหาก Transaction data มีรายละเอียดมากกว่านี้เช่น รายการอาหารที่สั่ง หรือสาขาที่ไปทาน เราก็จะยิ่งสามารถวิเคราะห์ข้อมูลได้ละเอียดยิ่งขึ้น

Screenshot 2018-01-18 12.59.10

รูปที่ 1 Summary data บัตร Starbucks ของลูกค้ารายหนึ่ง

Screenshot 2018-01-18 12.59.29

รูปที่ 2 Transactional data ของลูกค้ารายเดียวกัน

ดังนั้นหลักการสำคัญของ Big Data Analytics ก็คือการที่เราสามารถเก็บข้อมูล Transactional data ให้มากที่สุดและมีรายละเอียดมากที่สุดเท่าที่ทำได้ ผมมักจะถามคนเสมอว่าหน่วยงานในประเทศหน่วยงานมีข้อมูลที่มีขนาดใหญ่และเหมาะกับการทำ Big Data อย่างมาก หลายครั้งผมมักจะได้ยินคำตอบว่าเป็นข้อมูลของกรมการปกครองที่เก็บข้อมูลประชาชน ซึ่งโดยแท้จริงแล้วกรมฯจะมีเพียงข้อมูลสรุปและข้อมูลเคลื่อนไหวในลักษณะ Transactional data จะมีน้อยมาก (จึงไม่แปลกใจที่บางครั้งที่อยู่ในบัตรก็ยังไม่ถูกต้องเมื่อเทียบกับที่อยู่จริงๆ) แต่จริงๆหน่วยงานที่มีข้อมูลเยอะจริงๆในประเทศไทยคือกลุ่ม Telecom ที่ให้บริการโทรศัพท์เคลื่อนที่ ซึ่งจะมีข้อมูลการใช้มือถือตลอดเวลาที่ป้อนเข้ามาอย่างเช่น CDR ที่มีปริมาณข้อมูลต่อวันเป็นหมื่นหรือแสนล้านเรคอร์ด ด้วยข้อมูลมหาศาลขนาดนี้ก็ทำให้ผู้ให้บริการมือถือสามารถวิเคราะห์ข้อมูลลูกค้าได้เป็นอย่างดี เพราะทราบตำแหน่ง รูปแบบการใช้งาน เวลาในการโทร โทรศัพท์ที่ใช้ ค่าใช้จ่ายต่างๆ

นอกเหนือจากกลุ่มผู้ให้บริการโทรศัพท์เคลื่อนที่แล้วธุรกิจกลุ่มไหนอีกละที่มีข้อมูลขนาดใหญ่ในลักษณะ Transactional data

  • ธนาคารจะมีข้อมูล Transaction  จากการที่ลูกค้ามาทำธุรกรรมที่สาขา, Intenet banking หรือ mobile banking และหากมีข้อมูลจาก QR payment ในอนาคตก็จะมีข้อมูลลูกค้าละเอียดยิ่งขึ้น
  • หลักทรัพย์ก็จะมีธุรกรรมการซื้อขายแต่ละรายการอย่างละเอียด ทำให้ทราบว่าใครซื้อขาย หุ้นตัวไหน เวลาใด
  • ค้าปลีกจะมีข้อมูลรายการซื้อ ขายและสั่งสินค้ามาอย่างละเอียด และถ้าสามารถเก็บข้อมูลลูกค้าได้ ก็จะยิ่งทำให้เข้าใจได้ว่าลูกค้าคือใคร ยิ่งมีจำนวนธุรกรรมมากขึ้นเท่าไรก็ยิ่งสามารถวิเคราะห์ได้ละเอียดยิ่งขึ้น
  • โรงพยายบาลก็จะมีข้อมูลการเข้ามาตรวจรักษาของลูกค้า การสั่งยา
  • Smart home จะมีข้อมูล Log การใช้งานอุปกรณ์ต่างๆ

จากที่กล่าวมาทั้งหมดนี้จะเห็นได้ว่าถ้าเราจะทำ Big Data Analytics ได้ดีเราต้องพยายามหา Transactional data มาเก็บให้มากที่สุด อาทิเช่น

  • หากภาครัฐมีข้อมูลรายละเอียดการจ่ายภาษี VAT ของผู้เสียภาษีแบบปลีกย่อยมาที่สุดลงเป็นรายการ รายวัน หรือมีข้อมูลรายรับของประชาชนเป็นรายการย่อยมากที่สุดก็จะทำให้วิเคราะห์และประมาณการภาษีได้อย่างถูกต้อง
  • หากเราต้องการทราบข้อมูลคนจนที่ลงทะเบียนผู้มีรายได้น้อยของภาครัฐ เราอาจต้องเก็บข้อมูลการใช้บัตรคนจนตามร้านธงฟ้าหรือบริการต่างๆของภาครัฐเป็นรายการย่อยๆทั้งหมด เราก็อาจวิเคราะห์พฤติกรรมและตอบได้ว่าคนเหล่านี้จนจริงหรือไม่
  • หากกระทรวงสาธารณสุขมีข้อมูลรายละเอียดการใช้บริการการแพทย์ของประชาขน อย่างละเอียดมากที่สุด เราก็จะสามารถบริหารงานด้านสาธารณสุขให้มีประสิทธิภาพได้ดียิ่งขึ้น

ดังนั้นการเริ่มทำ Big Data จำเป็นต้องคำนึงถึง Transactional data ที่มีในองค์กรและต้องเอามาเก็บให้ได้เสียก่อน ถึงจะทำการวิเคราะห์ข้อมูลได้อย่างถูกต้อง ไม่ใช่เป็นการเล่นกับ Summary data โดยเราอาจต้องตั้งคำถามว่าเรามีข้อมูลลูกค้าแต่ละรายหรือข้อมูลสินค้าแต่ละรายการมากพอที่จะมาทำการวิเคราะห์หรือไม่ ถ้ามีข้อมูลลูกค้าเพื่อเดือนละรายการมันเพียงพอไหม หรือควรจะต้องเห็นทุกวัน หรือต้องเห็นทุกชั่วโมง  หรือบางอย่างอาจมีข้อมูลทุกนาที ขึ้นอยู่กับธุรกิจและลักษณะงานแล้วเราถึงจะวิเคราะห์ข้อมูลได้

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2561

 

การอบรม Big Data และกิจกรรมด้านนี้ของ IMC Institute ในปี 2018

Screenshot 2018-03-24 14.05.42

IMC Institute เปิดการอบรมด้าน Emerging Technology ต่างๆทั้ง Cloud computing, Big data, Internet of things และ Blockchain มาเป็นเวลา 5 ปี ตลอดเวลาที่ผ่านมา IMC Institute ได้มีโอกาสอบรมคนทั้งหมด 14,882 คน/ครั้ง*(ผู้เข้าอบรมบางท่านอาจเข้าอบรมมากกว่าหนึ่งครั้ง) โดยแบ่งเป็นการอบรมที่เป็นหลักสูตรที่เปิดสอนทั่วไปจำนวน 308 ครั้งมีผู้เข้าอบรม 5,628  คน/ครั้ง หลักสูตรที่เป็น In-House ที่จัดให้หน่วยงานต่างๆจำนวน 195 ครั้งมีผู้เข้าอบรม 6,233  คน/ครั้ง และการอบรมแบบฟรีสัมมนาหรืองานฟรีต่างๆจำนวน 43 ครั้งมีผู้เข้าอบรม 3,021 คน/ครั้ง

ในการอบรมด้านเทคโนโลยี Big Data ทาง IMC Institute ได้เริ่มสอนหลักสูตรด้าน Hadoop ตั้งแต่เดือนมีนาคมปี 2013 และในปัจจุบันได้เปิดหลักสูตรออกมาในหลายๆหลักสูตรสำหรับหลายๆกลุ่ม ทั้งในระดับผู้บริหารอย่างหลักสูตร Big data for senior management หรือหลักสูตรสำหรับ Developer หรือ  Big Data Engineer อย่าง Big Data Architecture and Analytics Platform และ Big Data Analytics as a Service for Developer หรือ หลักสูตรสำหรับ Business Analyst อย่าง Business Intelligence Design and Process หรือ Data Visualisation Workshop รวมถึงหลักสูตรด้าน Data Science อย่าง Machine Learning for Data Science รงมถึงมีหลักสูตรที่ใช้เวลาเรียนทั้งหมด 120 ชั่วโมงอย่าง Big Data Certification Course ที่สอนไปแล้ว 6  รุ่นรวม 180 คน ซึ่งหลักสูตรด้าน Big Data ทั้งหมดของ IMC Institute แสเงไว้ดังรูป

Screenshot 2018-01-16 11.13.32

หากมองถึงจำนวนผู้เข้าอบรมหลักสูตรด้าน Big Data ทาง IMC Institute ได้จัดการอบรมไปทั้งสิ้น 182 ครั้ง แบ่งเป็นการอบรมทั่วไป 91 ครั้ง, การอบรม In-house 66 ครั้ง และงานฟรีสัมมนา/Hackaton 25 ครั้ง โดยมีผู้เข้าอบรมทั้งสิ้นรวม 5,943 คน/ครั้ง เป็นการอบรมทั่วไป 1,860 คน/ครั้ง, การอบรม In-house 2,045 คน/ครั้ง และงานฟรีสัมมนา/Hackaton 2,038 คน/ครั้ง

Screenshot 2018-01-16 11.33.35

ในช่วง 5 ปีที่ผ่านมาทาง IMC Institute ยังมีการอบรมให้กับอาจารย์ในสถาบันอุดมศึกษาลักษณะ Train the trainer หลักสูตรด้าน Big Data และ Machine Learning ปีละหนึ่งรุ่นๆละประมาณ 30 คน เพื่อให้อาจารย์นำเอาเนื้อหาและเอกสารต่างๆไปสอนกับนักศึกษาในสถาบัน โดยอบรมมาแล้ว 5 รุ่นจำนวนอาจารย์ที่มาเรียนกว่า 150 คน และเมื่อสองปีก่อนทาง IMC Institute ก็ได้จัดการอบรมในลักษณะ On the job training ให้กับนักศึกษาในมหาวิทยาลัยปี 3 และ 4 เป็นเวลาสองเดือนโดยไม่ได้คิดค่าใช้จ่ายใดๆกับนักศึกษาผู้เข้าอบรม ทาง IMC Institute ได้จัดไปแล้วสองรุ่นมีผู้ผ่านการอบรมจำนวน 26 คน ซึ่งนักศึกษาปีสี่ที่ผ่านการอบรมก็เข้าไปทำงานต่อด้าน Big Data กับบริษัทต่างๆจำนวนมากอาทิเช่น G-Able, Humanica หรือ PTG Energy

นอกจากนี้ทาง IMC Institute ก็ยังมีโครงการฟรีสัมมนาทางด้านนี้เป็นประจำทุกเดือนให้กับผู้ที่สนใจทั่วไปเข้าฟัง โดยมีหัวข้อต่างๆอาทิเช่น Big Data on Public Cloud หรือ AI Trend to Realistic cases รวมถึงการจัด Big Data Hackatonในช่วงวันเสาร์-อาทิตย์ที่ทำมาแล้ว 5 ครั้ง

สำหรับในปี 2018 ทาง IMC Institute ก็ยังเปิดหลักสูตรด้าน Big Data ต่างๆอยู่เป็นจำนวนมากและมีการปรับเนื้อหาให้ผู้เข้าอบรมสามารถเข้าไปทำงานได้จริงโดยใช้ Public cloud computing service และ Big data as a service ที่เป็นบริการบน public cloud ที่ทำให้องค์กรต่างๆสามารถเรื่มทำโครงการ Big Data ได้อย่างรวดเร็ว โดยผู้สนใจสามารถมาดูข้อมูลหลักสูตรต่างๆด้าน Big Data ได้ที่ >> Big Data Track

นอกจากนี้ยังมีโครงการอบรมต่างๆที่น่าสนใจดังนี้

  • Big Data Certification Course รุ่นที่ 7 ที่เป็นหลักสูตร 120 ชั่วโมง เรียนทุกวันพฤหัสบดีเย็นและวันเสาร์ โดยจะเปิดเรียนวันที่ 15 มีนาคม 2018
  • Big Data Hackathon  ครั้งที่ 6 โครงการฟรีให้กับบุคคลที่เคยผ่านหลักสูตรการอบรมแบบ Hands-on ของ IMC Institute โดยจะจัดเพื่อให้ผู้สนใจได้ฝึกการแก้ปัญหากับข้อมูลขนาดใหญ่โดยมีรางวัลเป็น Google Home Mini สำหรับทีมที่ชนะแกสมาชิกในทีมท่านละหนึ่ง โดยจะจัดขึ้นวันที่ 24-25 กุมภาพันธ์ 2018
  • Big Data School: On the job training รุ่นที่  3 เป็นโครงกาiฝึกงานนี้มีเป้าหมายเพื่อจะอบรมและสอนให้ผู้เข้าฝึกงานได้เรียนรู้เรื่อง Big Data Technology อย่างเข้มข้น จะทำให้ผู้เรียนมีทักษะที่จะเป็น Data Engineer, Data Analyst และสามารถต่อยอดเป็น Data Scientist ได้ ในการทำโครงการ Big Data จากการติดตั้ง Big Data Infrastructure จริง ๆ บนระบบ Cloud โดยเป็นโครงการอบรมฟรีจำนวนสองเดือนให้กับนักศึกษาปีที่ 4 หรือ 3 โดยจัดตั้งแต่วันที่ 30 พฤษภาคม – 26 กรกฎาคม 2018

หากท่านใดสนใจโครงการอบรมต่างๆเหล่านี้ก็สามารถติดต่อได้ที่ contact@imcinstitute.com หรือเบอร์มือถือ  088-192-7975, 087-593-7974

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2561

การทำโครงการ Big Data อย่างรวดเร็ว ควรเริ่มอย่างไร

 

ช่วงนี้เวลาผมอ่านข่าวจากสื่อต่างๆก็จะเห็นผู้คนในทุกวงการออกมาพูดเรื่องการทำ Big Data เป็นจำนวนมาก มีการเขียนบทความ มีการออกข่าวต่างๆ กำหนดนโยบาย บ้างก็เข้าใจหลักการ บ้างก็พูดกันตามกระแส จนเหมือนกับว่า Big Data เป็นเครื่องมือวิเศษที่จะมาปรับเปลี่ยนองค์กรให้เข้าสู่การเปลี่ยนแปลงเชิงดิจิทัลได้โดยง่าย ทั้งๆที่การวิเคราะห์ข้อมูล Big Data มันซับซ้อนกว่านั้นและต้องมีการปรับเปลี่ยนโครงสร้างพื้นฐานด้านเทคโนโลยีสารสนเทศในองค์กรพอสมควร

ผมเองค่อนข้างจะโชคดีที่ยังเป็นคนลงมือปฎิบัติ ทำ Big Data Project เอง ศึกษาเอง มาเปิดและติดตั้งระบบอย่าง Hadoop  มาใช้  Cloud Services ต่างๆในการทำ Big Data Analytics ได้ลงมือทำ Machine Learning ตลอดจนศึกษาทฤษฎีทั้งในมุมมองของผู้บริหารและนักไอที เห็น Use Cases ในที่ต่างๆ และก็ได้เจอผู้คนมากมายในองค์กรต่างๆ พร้อมทั้งมีโอกาสได้ไปบรรยายและสอนเรื่องนี้ในหลายๆที่ ทั้งระดับบริหารและสอนคนลงมือปฎิบัติจริงจัง จึงพอที่จะบอกได้คร่าวๆบ้างว่า เราควรจะเริ่มต้นทำ  Big Data ได้อย่างไร ผมอยากจะสรุปประเด็นการเริ่มต้นทำโครงการ Big Data ที่สำคัญสามเรื่องดังนี้

1. การทำ Big Data  ควรเริ่มต้นทำกับข้อมูลประเภทใด

Big Data คือข้อมูลขนาดใหญ่มากๆทั้งที่เป็น  Structure และ unstructure ซึ่งผมมักจะได้ยินว่าเราควรเอา Big Data มาเพื่อวิเคราะห์พฤติกรรมลูกค้่า บ้างก็บอกว่าไปเอาข้อมูลใน Social Media มาเพื่อเข้าใจลูกค้าหรือแบรนด์เราเองมากขึ้น แต่จริงๆแล้วถ้าเราแบ่งข้อมูลที่จะนำมาใช้ เราอาจแบ่งได้เป็นสี่ประเภท

  • ข้อมูลที่มีอยู่แล้ว และได้ทำการวิเคราะห์แล้ว
  • ข้อมูลที่มีอยู่แล้ว แต่ไม่เคยนำมาวิเคราะห์ใดๆ
  • ข้อมูลที่ยังไม่เคยเก็บ แต่น่าจะมีประโยชน์
  • ข้อมูลจากคู่ค้าหรือแหล่งอื่นๆ

การเริ่มต้นทำ Big Data ที่ง่ายๆอาจพิจารณาที่ “ข้อมูลที่มีอยู่แล้ว แต่ไม่เคยนำมาวิเคราะห์ใดๆ” ก่อน เช่นข้อมูล Transaction การทำธุรกรรมต่างๆของลูกค้าที่จะเป็นข้อมูลรายละเอียด แต่เราไม่เคยนำมาวิเคราะห์ หรือรายการขายสินค้าในแต่ละรายการ เพราะโดยมากข้อมูลที่เราเคยวิเคราะห์แล้ว มักจะเป็นข้อมูลสรุปตัวเลข ยอดสินค้า ยอดขาย จำนวนลูกค้า แต่รายละเอียดย่อยๆเหล่านี้ จะเป็นข้อมูลขนาดใหญ่และอาจไม่เคยนำมาวิเคราะห์

2.การทำ Big Data  ต้องลงทุนโครงสร้างพื้นฐานมากน้อยเพียงใด

การวิเคราะห์ข้อมูลของ Big Data ที่ดีต้องมีการลงทุนโครงสร้างพื้นฐานที่แตกต่างจากการจัดทำฐานข้อมูลแบบเดิมๆหรือการทำโครงการ Data warehouse ซึ่งจะเป็นการลงทุนด้าน Data Lake ที่จะมาใช้ในการเก็บข้อมูลขนาดใหญ่ ดังแสดงรูปที่ 1 ซึ่งหลายๆองค์กรจะลงทุนไปกับเทคโนโลยีอย่าง Hadoop เพราะจะมีค่าใช้จ่ายในการเก็บ Storage ที่ค่อนข้างถูกกว่าเทคโนโลยีอื่นๆ ดังแสดงในรูปที่ 2  ที่อาจถูกกว่า Database เกือบ 20 เท่า แต่อย่างไรก็ตามการที่จะทำ Hadoop cluster ที่เป็นแบบ on-Promise ก็ยังมีค่าใช้จ่ายที่สูง อาทิเช่นการติดตั้ง Hadoop Servers  18 ตัวอาจมีค่าใช้จ่ายสูงถึง 30 ล้าน ดังแสดงในรูปที่  3

Screenshot 2017-11-24 13.23.02

รูปที่  1 การทำโครงการ Big Data Analytics โดยการทำ  Data Lake

Screenshot 2017-11-24 13.51.52

รูปที่  2 เปรียบเทียบค่าใช้จ่ายการทำ  Big Data Platform

ดังนั้นจึงไม่แปลกใจที่หน่วยงานจำนวนมากไม่สามารถที่จะลงทุนโครงสร้างพื้นฐานเรื่องของ  Big Data Platform ได้ เนื่องด้วยค่าใช้จ่ายที่สูง และอาจคำนวณหาผลตอบแทนในการลงทุนลำบาก รวมถึงอาจหา  Business case ค่อนข้างยาก ข้อสำคัญการลงทุน Hadoop อาจพบว่าส่วนใหญ่ก็คือการรวบรวมข้อมูลมาใส่ลงใน Data Lake  มากกว่าการใช้ CPU ในการประมวลผลผ่าน Processing Tools อย่าง  Hive, Spark, Impala เพราะนานๆครั้งจะทำการประมวลผลที่ และบางครั้งหากต้องการประมวลผลก็จะพบว่าความเร็วหรือจำนวน CPU ไม่พอ จึงอาจเกิดคำถามขึ้นมาว่าเราต้องลงทุนโครงสร้างพื้นฐานจำนวนหลายสิบล้านบาทเพียงเพียงเพื่อใช้ในการเก็บช้อมูลที่เป็น archieve จะคุ้มค่าหรือไม่

 

Screenshot 2017-11-24 13.52.01

รูปที่  3 ค่าใช้จ่ายการทำ  Hadoop Cluster จำนวน  18 เครื่อง [ข้อมูลจาก https://blogs.oracle.com%5D

แนวทางที่ดีสำหรับการลงทุนโครงการ Big Data คือการใช้บริการ Public Cloud ดังที่ผมเคยเขียนไว้ในบทความ “Big Data as a Service แนวทางการทำโครงการ Big Data ที่ไม่ต้องลงทุนโครงสร้างพื้นฐาน”  ทั้งนี้เราจะแยกส่วนการเก็บข้อมูลขนาดใหญ่ที่เป็น Data Lake ไว้ใน Cloud Storage อาทิเช่นการใช้ Google Cloud Storage, AWS S3 หรือ Microsoft Azure Blob มาแทนที่การใช้ Hadoop HDFS ซึ่งจะเป็นการประหยัดค่าใช้จ่ายกว่าการลงทุน Hadoop Cluster มากและก็มีความเสถียรของระบบที่ดีกว่า นอกจากองค์กรก็ยังลดค่าใช้จ่ายในการบริหารจัดการและดูแลระบบ ซึ่งจะถูกกว่าการลงทุน Hadoop Cluster หลายสิบเท่า โดยอาจมีค่าใช้จ่ายเพียงการเก็บข้อมูลเดือนหนึ่งหลักเพียงหมื่นบาทในการเก็บข้อมูลเป็น Terabyte ทั้งนี้ข้อมูลที่นำมาเก็บบน  Cloud storage ก็เป็นข้อมูลเช่นเดียวกับ Hadoop HDFS ที่เน้นข้อมูลที่เป็น  Archeive ซึ่งอาจเป็น Warm data หรือ Cold data และหากองค์กรกังวลเรื่องความปลอดภัยก็สามารถเข้ารหัสก่อนนำข้อมูลเหล่านี้ไปเก็บไว้บน Cloud

Screenshot 2017-11-24 13.22.42

รูปที่  4 เปรียบเทียบค่าใช้จ่ายการใช้ Cloud Storageกับ Hadoop HDFS

ในด้านการประมวลผล เราก็สามารถที่จะใช้จำนวน CPU ไม่จำกัดเพราะเราสามารถที่จะใช้บริการ Hadoop as a Services ที่มีค่าใช้จ่ายตามการใช้งานเช่นการใช้ Amazon EMR. Google DataProc หรือ  Microsoft HDInsight ซึ่งจะเสียค่าใช้จ่ายน้อยมากตามจำนวน CPU ที่ใช้ในการประมวลผล ซึ่งจากประสบการณ์ของผมที่ทำโครงการ Big Data Analytics ที่ทาง IMC Institute รับทำให้กับลูกค้านั้น บางครั้งเราเปิด Server ขนาด 4  vCPU  ถึงสามสิบเครื่อง เสียค่าใช้จ่ายเพียงหลักร้อยบาท ดังนั้นจะเห็นได้ว่าการลงทุนโครงการ Big Data โดยใช้ Cloud Computing ก็จะลงทุนเพียงเล็กน้อยและสามารถเริ่มทำงานได้ทันที

3.การทำ Big Data  ต้องจะพัฒนาคนเพียงใด

การวิเคราะห์ข้อมูล Big Data จะแตกต่างกับการทำโครงการ Data warehouse  ที่อาจเน้นการทำ Data Cleansing ซึ่งจะเน้นการใช้  SQL แต่การทำ Big Data จะต้องการ  Developer ที่สามารถพัฒนาโปรแกรมอย่างภาษา Python หรือ SQL ได้ ตลอกจนอาจต้องการ Data Sciencetist ที่มีความรู้ด้าน Machine Learning Algorithm ต่างๆ หากต้องการเห็นการทำ Big Data Analytics อย่างจริงจัง องค์กรจำเป็นต้องพัฒนาบุคลากรขึ้นมาเพื่อให้ใช้ Processing Tools ต่างๆอย่าง Apache Spark และควรมีความเข้าใจด้าน Machine Learning ซึ่งระยะต้นที่เป็นโจทย์วิเคราะห์ข้อที่หนึ่งหรือสอง เราอาจเรียนรู้โดยการว่าจ้าง Outsource มาทำแล้วทำงานร่วมกัน เพื่อเป็นการพัฒนาบุคลากรเพื่อแก้โจทย์ Big Data Analytics อื่นๆในอนาคต

ธนชาติ นุ่มนนท์

IMC Institute

พฤศจิกายน 2560

Screenshot 2017-10-02 08.23.18

 

 

Big Data as a Service แนวทางการทำโครงการ Big Data ที่ไม่ต้องลงทุนโครงสร้างพื้นฐาน

Screenshot 2017-09-18 10.59.49

ช่วงหลายเดือนที่ผ่านมาผมเดินสายบรรยายเรื่อง Big Data Jumpstart  โดยแนะนำให้องค์กรต่างๆทำ  Big Data  as a Service ซึ่งเป็นการใช้ Cloud Services ของ Public cloud หลายใหญ่ต่างๆทั้ง  Google Cloud Platform, Microsoft Platform หรือ Amazon Web Services (AWS) ทำให้เราสามารถที่จะลดค่าใช้จ่ายได้มหาศาลโดยเฉพาะกับองค์กรขนาดกลางหรือขนาดเล็กที่ไม่มีงบประมาณหลายสิบล้านในการลงทุนโครงสร้างพื้นฐานด้าน Big Data

Screenshot 2017-10-02 08.27.19

รูปที่ 1 องค์ประกอบของเทคโนโลยีสำหรับการทำ Big Data

การลงทุนโครงสร้างพื้นฐานหรือการจัดหาเทคโนโลยีสำหรับโครงการ Big Data โดยมากจะมีการลงทุนอยู่สี่ด้านคือ 1) Data Collection/Ingestion สำหรับการนำข้อมูลเข้ามาเก็บ  2) Data Storage สำหรับการเก็บข้อมูลที่เป็นทั้ง structure และ unstructure 3) Data Analysis/Processing สำหรับการประมวลผลข้อมูลที่อยู่ใน data storage และ 4)  Data visualisation  สำหรับการแสดงผล

ปัญหาที่องค์กรต่างๆมักจะมีก็คือการจัดหาเทคโนโลยีด้าน Data storage ที่จะต้องสามารถเก็บ Big Data ซึ่งนอกจากจะมีขนาดใหญ่แลัวข้อมูลยังมีความหลากหลาย จึงต้องหาเทคโนโลยีราคาถูกอย่าง Apache Hadoop มาเก็บข้อมูล แต่การติดตั้งเทคโนโลยีเหล่านี้ก็มีค่าใช้จ่ายในการหาเครื่องคอมพิวเตอร์ Server จำนวนมากมาใช้ และค่าใช้จ่ายด้าน Hardware ก็ค่อนข้างสูงหลายล้านบาท บางทีเป็นสิบล้านหรือร้อยล้านบาท ซึ่งอาจไม่เหมาะกับองค์กรขนาดเล็ก หรือแม้แต่องค์กรขนาดใหญ่ก็มีคำถามที่จะต้องหา Use case ที่ดีเพื่อตอบเรื่องความคุ้มค่ากับการลงทุน (Returm of Investment) ให้ได้

ดังนั้นการทำโครงการ Big Data ไม่ควรจะเริ่มต้นจากการลงทุนเรื่องเทคโนโลยี ไม่ใช่เป็นการจัดหาระบบอย่างการทำ Apache Hadoop แต่ควรจะเป็นการเริ่มจากคิดเรื่องของธุรกิจเราต้องคิดเรื่องของ Business Transformation (Don’t thing technology, think business transformation) การทำโครงการ Big Data ควรเริ่มจากทีมด้านธุรกิจไม่ใช้หานักเทคโนโลยีมาแนะนำการติดตั้งระบบหรือลง Hadoop หรือหานักวิทยาศาสตร์ข้อมูลมาทำงานทันที เพราะหากฝ่ายบริหารหรือฝ่ายธุรกิจมีกลยุทธ์ด้าน Big Data เข้าใจประโยชน์ของการทำ Big Data ได้ เราสามารถเริ่มต้นโครงการ Big Data ได้อย่างง่าย โดยใช้ประโยชน์จากบริการ Big Data as a Service บน Public cloud ซึ่งทำให้องค์กรไม่ต้องเสียค่าใช้จ่ายเริ่มต้นในราคาแพง ที่อาจไม่คุ้มค่ากับการลงทุน

เทคโนโลยีในการทำ Big Data  ต่างๆเช่น Big data storage (อย่าง Hadoop HDFS) เราสามารถใช้ Cloud Storage  อย่าง Amazon S3, Google Cloud Storage หรือ Azure Blob เข้ามาแทนที่ได้ โดยบริการเหล่านี้ค่าใช้จ่ายในการใช้จ่ายในการใช้งานจะต่ำกว่าการติดตั้ง Hadoop มาใช้งานเป็นสิบหรือร้อยเท่า แม้อาจมีข้อเสียเรื่องเวลาในการ Transfer ข้อมูลจาก site ของเราขึ้น Public Cloud แต่หากมีการวางแผนที่ดีแล้วสามารถทำงานได้อย่างมีประสิทธิภาพ เช่นเดียวกับเรื่องความปลอดภัยของข้อมูบบน Public cloud หากมีการพิจารณาการใช้ข้อมูลที่เหมาะสมหรือการเข้ารหัสข้อมูลก็จะตัดปัญหาเรื่องเหล่านี้ไปได้

เช่นเดียวกันในการประมวลผลเราสามารถใช้บริการบน Public cloud ที่ใช้ระบบประมวลผลอย่าง Hadoop as a service เช่น DataProc บน Google Cloud Platform, HDInsight ของ Microsoft Azure หรือ EMR ของ AWS ซึ่งมีค่าใช้จ่ายตามระยะเวลาการใช้งาน  (pay-as-you-go) ซึ่งเราไม่จำเป็นต้องเปิดระบบตลอด และมีค่าใช้จ่ายที่ต่ำมาก รวมถึงการใช้บริการอื่นๆอย่าง Machine Learning as a Service บน public cloud  ที่มีความสามารถที่ค่อนข้างสูง ทำให้เราสามารถทำงานได้อย่างมีประสิทธิภาพ

แม้แต่การทำ Data Visualisation เราก็สามารถที่จะใช้เครื่องมือบน public cloud ที่จัดเป็น Big Data Software as a Service อย่างเช่น Google Data Studio 360, PowerBI บน Microsoft Azure หรือ Quicksight ของ AWS ได้ ซึ่งรูปที่ 2 ก็แสดงสรุปให้เห็นบริการ Cloud Service เหล่านี้ บน public cloud platform ต่างๆ

Screenshot 2017-10-02 12.09.47

รูปที่ 2 Tradition Big Data Technology เทียบกับ Big Data as a Service ต่าง

ซึ่งการทำโครงการ Big Data โดยใช้ public cloud เหล่านี้สามารถที่จะเริ่มทำได้เลย ไม่ได้มีค่าใช้จ่ายเริ่มต้น และค่าใช้จ่ายที่ตามมาก็เป็นค่าบริการต่อการใช้งาน ซึ่งค่าบริการที่อาหมดไปหลักๆก็จะเป็นค่า Cloud Storage  ที่อาจเสียประมาณเดือนละไม่ถึงพันบามต่อ Terabyte และหากเราต้องการเปลี่ยนแปลงหรือยกเลิกบริการเหล่านี้ก็สามารถใช้ได้ทันที ซึ่งวิธีการตัดสินใจที่จะทำโครงการ Big Data เหล่านี้ก็จะไม่ได้เน้นเรื่องของความคุ้มค่ากับการลงทุนมากนัก เพราะค่าใช้จ่ายเริ่มต้นต่ำมาก แต่มันจะกลายเป็นว่า เราจะทำโครงการอะไรที่ให้ประโยชน์กับธุรกิจมากสุด และเมื่อเริ่มทำลงทุนเรื่มต้นเล็กน้อยก็จะเห็นผลทันทีว่าคุ้มค่าหรือไม่

กล่าวโดยสรุป วันนี้เราสามารถเริ่มทำโครงการ  Big Data ได้เลยโดยเริ่มที่โจทย์ทางธุรกิจ คุยกับฝั่งธุรกิจ ไม่ใช่เริ่มที่เทคโนโลยี

ธนชาติ นุ่มนนท์

IMC Institute

ตุลาคม 2560

ระดับการวัดความสามารถในการนำ Big Data ไปใช้ในองค์กร

 

ผมเห็นว่าวันนี้ทุกคนต่างก็พูดเรื่อง Big Data ตั้งแต่คนไอทีไปจนถึงนายกรัฐมนตรี ต่างก็บอกว่าจะเอา Big Data  มาใช้ในองค์กร บ้างก็บอกว่าทำแล้วบ้างก็บอกว่ากำลังทำ บางคนทำรายงานอะไรเล็กน้อยก็บอกว่าทำ Big Data อยู่ ซึ่งผมก็ไม่แน่ใจว่าแต่ละคนเข้าใจความหมายของ Big Data แค่ไหน แต่ไม่ว่าจะมองนิยาม  Big Data อย่างไรก็ตามผมมองว่า Big Data มีเป้าหมายสำหรับองค์กรในสามประเด็นดังนี้

  1. การนำข้อมูลขนาดใหญ่มาช่วยในการตัดสินใจได้ดีขึ้น เช่นสามารถตอบได้ว่าเราควรจะทำอะไร นำสินค้าใดมาขาย ลูกค้าเราอยู่ที่ใด จะใช้จ่ายงบประมาณอย่างไร
  2. การนำข้อมูลขนาดใหญ่มาช่วยให้การทำงานดีขึ้น เช่นทราบข้อมูลโดยทันทีว่าลูกค้าต้องการอะไร ทราบตำแหน่งของลูกค้าเป้าหมาย หรือช่วยเพิ่มยอดขาย จะใช้งบประมาณให้มีประสิทธิภาพอย่างไร
  3. การทำให้ข้อมูลเป็นทรัพย์สินขององค์กร และทำให้เกิด Business Transformation เช่นการนำข้อมูลที่มีอยู่ไปต่อยอดร่วมกับคู่ค้ารายอื่นๆเพื่อสร้างสินค้าใหม่ๆ

การทำ  Big Data ไม่ใข่แค่เรื่องของการทำ  Data Cleansing, Data Warehouse, Business Intelligence หรื่อเรื่องของเทคโนโลยี องค์กรที่จะทำ Big Data อาจต้องเปลี่ยนทัศนคติในรูปแบบเดิมๆอยู่หลายเรื่อง ซึ่งผมมักจะยกคำพูดสั้นมา 3-4  ประโยคเกี่ยวกับ Big Data  ดังนี้

  • Don’t think technology, think business transformation.
  • Don’t think data warehouse, think data lake.
  • Don’t think business intelligence, think data science.
  • Don’t think “what happened”, think “what will happen”.

สุดท้ายต้องทำความเข้าใจเรื่องระดับความสามารถของการนำ Big Data ไปใช้ในองค์กร (Big Data Matuarity Model)  ว่ามีอยู่ 5 ระดับดังรูปนี้ ซึ่งจะบอกได้ว่าองค์กรของเราอยู่ในระดับใด

Screenshot 2017-09-01 11.46.57

รูปที่ 1 Big Data Business Model Maturity Index, จาก Big Data MBA, Bernard Marr

  1. Business Monitoring ในขั้นตอนนี้องค์กรยังเพียงแค่ทำ Business Intelligence หรือยังทำ Data Warehouse ซึ่งเป็นขั้นตอนที่เราจะแสดงข้อมูลหรือทำรายงานต่างๆขององค์กรในลักษณะของ Descriptive Analytic ที่เราจะดูข้อมูลในอดีตเพื่อให้ทราบว่า What happened?
  2. Business Insights  ในขั้นตอนนี้จะเป็นการเริ่มต้นทำ Big Data Project ที่มีการทำ  Data Lake เพื่อรวบรวมข้อมูลจากทั้งภายในและภายนอกองค์กรทั้งข้อมูลที่เป็น structure, unstructure  หรือ semi-structure เพื่อทำ Predictive Analytic  เพื่อให้ทราบว่า What will happen?
  3. Business Optimization ในขั้นตอนนี้จะเริ่มเห็นความคุ้มค่าของการลงทุนทำ Big Data Project โดยจะเป็นการทำ Prescriptive Analytic เพื่อให้ทราบว่า How should we make in happen?
  4. Data Monetization ในขั้นตอนนี้จะเป็นการขยายผลเพื่อนำ Data ที่จะเป็นทรัพยากรขององค์กรไปใช้เป็นสินทรัพย์ในการทำงานร่วมกับคู่ค้าหรือองค์กรอื่นๆ
  5. Business Metamorphosis ในขั้นตอนนี้จะเป็นขั้นสูงสุดของการทำ Big Data ที่จะเห็นเรื่องของ Business Transformation  ในองค์กรซึ่งอาจเห็นรูปแบบการทำงานใหม่ๆ ธุรกิจใหม่ หรื่อผลิตภัณฑ์ใหม่ๆขององค์กร

จากที่กล่าวมาทั้งหมดนี้จะเห็นได้ว่า การทำ Big Data Project  ไม่ใช่เรื่องง่ายๆอย่างที่เข้าใจ จำเป็นต้องปรับวิธีคิดในองค์กรอย่างมาก และต้องเข้าใจเป้าหมายและระดับขั้นของการทำ Big Data ในองค์กร

ธนชาติ นุ่มนนท์

IMC Institute

พฤศจิกายน 2560