ภาพเปรียบเทียบ Big Data Architecture โดยใช้ Hadoop กับการใช้ Public Cloud ของ Google, AWS หรือ Azure

Screenshot 2018-10-22 13.30.30

ผมเคยเขียนบทความหลายๆครั้งชี้ให้เห็นว่าการทำ Big Data จำเป็นที่จะต้องมี Data Lake  ที่ทำงานร่วมกับ Database/Data warehouse และต้องมี Data Processing Tool และ Data Visualisation Tool ดังตัวอย่างสถาปัตยกรรมโดยย่อในรูปที่ 1  ทั้งนี้ Hadoop จะเป็นเทคโนโลยีที่หน่วยงานส่วนใหญ่จะลงทุนในการทำ Data Lake เพราะมีราคาในเก็บข้อมูลที่ต่ำเมื่อเทียบกับเทคโนโลยี On-Premise อื่นๆ และก็มีระบบนิเวศน์ที่มีซอฟต์แวร์อื่นๆอาทิเช่นการดึงข้อมูลหรือการประมวลผลข้อมูล

Screenshot 2018-10-21 16.55.08

รูปที่ 1 สถาปัตยกรรมเทคโนโลยี Big Data แบบย่อ

เพื่อให้เห็นภาพการออกแบบสถาปัตยกรรม Big Data โดยใช้เทคโนโลยี Hadoop ผมขอยกตัวอย่างระบบสถาปัตยกรรมข้อมูลแบบดังเดิม ( Traditional data architecture) ในรูปที่ 2 ซึ่งหน่วยงานอาจมีระบบฐานข้อมูลที่หลากหลายท้ง RDBMS และ NoSQL โดยอาจมี Data warehouse ที่จะทำหน้าที่รวบรวมข้อมูลแล้วแสดงผลผ่านมายัง Visualisation Tools  ต่างๆ ซึ่งหากเราจะพัฒนาระบบนี้ให้เป็นสถาปัตยกรรม Big Data แบบ On-Premise โดยใช้ Hadoop เป็น Data Lake เราก็อาจได้ระบบต่างๆดังรูปที่ 3 โดยรายละเอียดของการทำงานซอฟต์แวร์แต่ละตัว (Hadoop HDFS, Spark, Kafka และอื่นๆ) ผมขอไม่กล่าวซ้ำ เพราะได้เคยเขียนไว้หลายครั้งในบล็อก thanachart.org

Screenshot 2018-10-22 12.44.28

รูปที่ 2 ตัวอย่างสถาปัตยกรรมข้อมูลแบบดังเดิม

Screenshot 2018-10-22 12.43.33

รูปที่ 3 ตัวอย่างสถาปัตยกรรม Big Data แบบ On-Premise โดยใช้ Hadoop 

แต่การจะลงทุนระบบ On-Premise โดยใช้เทคโนโลยี Hadoop และซอฟต์แวร์ต่างๆในรูปที่ 3 จะมีต้นทุนที่ค่อนข้างสูงมาก ผมเคยเขียนบทความแนะนำให้ไปเริ่มต้นโดยใช้ Public cloud ที่ราคาจะถูกกว่ากันมาก (อ่านบทความเรื่องนี้เพิ่มเติมได้ที่ Big Data as a Service แนวทางการทำโครงการ Big Data ที่ไม่ต้องลงทุนโครงสร้างพื้นฐาน) ซึ่งในบทความนี้ผมเลยตั้งที่จะทำตารางสรุปเปรียบเทียบการใช้บริการ Public Cloud รายใหญ่ต่างๆ กับเทคโนโลยีที่เป็น On-Premise โดยแสดงให้เห็นว่าบริการอะไรที่จะเข้าทดแทนระบบแบบ On-Premise ตามตารางที่ 1 และรูปที่ 4-6 ก็จะสรุปเป็นภาพบริการของ Cloud Provider ทั้งสามราย ซึ่งรายละเอียดของบริการแต่ละอย่างขอให้ไปศึกษาเพิ่มเติมจากผู้ให้บริการหรือหลักสูตรต่างๆทั้งใน YouTube หรือของ IMC Institute

ธนชาติ นุ่มนนท์

IMC Institute

ตารางที่ 1 เปรียบเทียบเทคโนโลยี On-Promise กับบริการต่างๆของ Public Cloud

Screenshot 2018-10-21 17.27.41

Screenshot 2018-10-22 12.44.10

รูปที่ 4 ตัวอย่างสถาปัตยกรรม Big Data โดยใช้ AWS แทนที่ระบบ On-Premise

Screenshot 2018-10-22 12.43.52

รูปที่ 5 ตัวอย่างสถาปัตยกรรม Big Data โดยใช้ Google Cloud Platform แทนที่ระบบ On-Premise

Screenshot 2018-10-22 12.44.48

รูปที่ 6 ตัวอย่างสถาปัตยกรรม Big Data โดยใช้ Microsoft Azureแทนที่ระบบ On-Premise

ถึงเวลาที่ต้องเข้าใจความหมาย Big Data อย่างแท้จริง ก่อนที่เราจะสูญเสียศักยภาพการแข่งขัน

Screenshot 2018-10-22 13.30.30

ช่วงนี้ทุกภาคส่วนในประเทศเราจะพูดถึงเทคโนโลยี Big Data บ่อยมาก บางครั้งก็บอกว่าหน่วยงานตัวเองกำลังทำ Big Data  บ้างก็บอกว่าเก็บข้อมูลเป็น  Big Data บ้างก็บอกว่าต้องวิเคราะห์ข้อมูลโดยใช้ Big Data ผมว่าผู้บริหารบ้านเราเล่นกับเทอม Big Data มากเกินไป โดยไม่เข้าใจความหมายที่แท้จริง และส่วนมากไม่ได้นำมาใช้ประโยชน์อย่างแท้จริง กลายเป็นว่าใช้ข้อมูลเล็กน้อยเพียงผิวเผินและไม่สนใจที่จะศึกษาความหมาย การใช้ Big Data อย่างแท้จริงเลยทำให้บ้างครั้งบ้านเราสูญเสียโอกาสไปอย่างมาก ก็เพียงเพราะว่าเราต้องการแค่สร้างภาพและตอบโจทย์เพียงแค่ว่า ฉันได้ทำ Big Data แล้วทั้งๆที่ก็อาจเป็นแค่ข้อมูลเล็กๆธรรมดาๆและก็อาจทำรายงาน หรือทำ Business Intelligence  สรุปข้อมูลออกมากโดยไม่มีการทำ Analytics  วิเคราะห์ข้อมูลขนาดใหญ่เพื่อสร้างศักยภาพการแข่งขันให้หน่วยงานแต่อย่างใด

ผมคงไม่อธิบายความหมายของ Big Data มากนัก เพราะตัวเองก็เคยเขียนแนะนำความหมายมาหลายๆครั้ง ไม่ว่าจะเป็น 3Vs อย่าง Volume, Velocity และ Variety หรือเราจะเพิ่มเรื่องของ Varacity เข้าไปอีก โดยถ้าสนใจจะลองดูความหมายก็อาจกลับไปอ่านบทความเก่าๆของผมได้ที่ Big Data และเทคโนโลยี Hadoop กับการพัฒนาองค์กรด้านการวิเคราะห์ข้อมูล และผมก็เคยพยายามจะชี้ให้เห็นว่าถ้าเรามองถึง Big Data เรามักจะเห็นข้อมูลอยู่สี่ประเภทดังรูปที่ 1 ก็คือ

  • Social media data
  • Mobile data
  • Internet of things data
  • Transactional data

Screenshot 2018-10-20 12.36.37

รูปที่ 1 ประเภทข้อมูลของ  Big Data

(อ่านรายละเอียดเพิ่มเติมได้ในบทความ   การวิเคราะห์พฤติกรรมลูกค้าควรมีข้อมูลธุรกรรมขนาดใหญ่ของลูกค้าแต่ละราย)

คุณลักษณะที่สำคัญสุดประการหนึ่งของข้อมูลแบบ Big Data คือต้องมี Velocity เข้ามา การจะวิเคราะห์ข้อมูลขนาดใหญ่ได้ดีและมีความแม่นยำขึ้นต้องมีข้อมูลที่เข้ามาอย่างต่อเนื่องและทันสมัย อาทิเช่นถ้ามีข้อมูล CRM ที่เก็บย้อนหลังไว้นานๆ แม้จะมีจำนวนลูกค้าเป็นล้านแต่ก็อาจจะไม่ทันสมัยเพราะข้อมูลลูกค้าก็อาจไม่ถูก update เช่นเบอร์โทรศัพท์ ที่อยู่ อาชีพ หรือแม้แต่ชื่อก็อาจเปลี่ยนไป แต่ในทางตรงข้ามถ้าเรามีข้อมูลธุรกรรมที่เข้ามาอย่างต่อเนื่องเช่นข้อมูลมาซื้อสินค้ากับเรา เราจะเข้าใจข้อมูลลูกค้ามากขึ้น อาจเห็นพฤติกรรมของเขาไว้ไปสาขาไหนอยู่ที่ใด ดังนั้นผมเลยเคยเขียนบอกไว้ว่า หลักการสำคัญของ Big Data Analytics ก็คือการที่เราสามารถเก็บข้อมูล Transactional data ให้มากที่สุดและมีรายละเอียดมากที่สุดเท่าที่ทำได้ (อ่านรายละเอียดเพิ่มเติมได้ในบทความ Big data ต้องเริ่มต้นจากการวิเคราะห์ Transactional data ไม่ใช่เล่นกับ summary data)

ดังนั้นถ้าเราต้องการจะสร้างศักยภาพการแข่งขันขององค์กรด้วย Big Data เราคงต้องวางกลยุทธ์ให้องค์กรมีข้อมูลในสี่ประเภทที่ผมกล่าวไว้ข้างต้น แต่คำถามที่ท้าท้ายก็คือว่าเราจะหาข้อมูลเหล่านั้นมาได้อย่างไร ซึ่งหากเราสามารถทำได้ก็จะทำ Big Data Analytics ที่แท้จริงได้ เมื่อวานนี้ผมไปบรรยายให้กระทรวงการท่องเที่ยวและกีฬาและพยายามยกตัวอย่างการใช้  Big Data ในการท่องเที่ยว โดยอาจมีโจทย์ต่างๆที่น่าสนใจดังนี้

  • การใช้เพื่อการวางแผนของภาครัฐในการกำหนดนโยบาย กำหนดเส้นทางการท่องเที่ยว หรือแม้แต่การวางแผนการบริการรถสาธารณะ
  • การเข้าใจพฤติกรรมการท่องเที่ยว
  • การทำ Personalisation ให้นักท่องเที่ยว

ซึ่งจากโจทย์ที่ยกมา ผมก็ชี้ให้เห็นว่าเราไม่สามารถที่จะทำได้โดยได้ข้อมูลแค่จำนวนนักท่องเที่ยวรายวเดือนหรือหรือวันที่เป็นข้อมูลสรุป แต่เราต้องมีข้อมูลต่างๆเช่น

  • ข้อมูลจาก Social Media ที่อาจเป็นการ Tag ตำแหน่งที่อยู่ หรือรูปถ่าย จะต้องมีข้อมูลป้อนเข้ามาในแต่ละวินาทีเป็นจำนวนมาก
  • ข้อมูลจาก Telecom ที่จะเห็นข้อมูลของนักท่องเที่ยวเป็นวินาทีว่าอยู่ที่ไหน เป็นต้น
  • ข้อมูลจาก IoT ที่ในอนาคตอาจมีข้อมูลจาก CCTV ที่เห็นจำนวนนักท่องเที่ยวในแต่ละที่อยู่ตลอดเวลา
  • ข้อมูล Transaction  เช่นข้อมูลจากการจองโรงแรม ข้อมูลการเดินทางจากสายการบิน การรถไฟ หรือการท่าอากาศยาย ซึ่งข้อมูลเหล่านี้ต้องเป็นข้อมูลดิบที่ให้เห็นเป็นนาที หรือเป็นรายธุรกรรม ไม่ใช่ข้อมูลสรุป

จากข้อมูลเหล่านี้เราก็อาจมาทำการวิเคราะห์ในเรื่องต่างๆได้เช่น

  • พฤติกรรมการเดินทางของนักท่องเที่ยวว่าจะเดินทางจากจุดไหนไปยังที่ใดต่อ
  • ตำแหน่งไหนมีคนเยี่ยมชมมากน้อยเพียงใด ในช่วงเวลาใด และอนาคตควรทำอย่างไร
  • วิธีการเดินทางของนักเที่ยวเช่นมาจุดนี้โดยเครื่องบิน หรือรถไฟ หรือรถยนต์
  • การทำ  Segementation นักท่องเที่ยวตามอายุ สัญชาติ เป็นต้น

จากที่กล่าวมาทั้งหมดจะเห็นได้ว่าเมื่อพูดถึง Big Data จะไม่ใช่ข้อมูลสรุป แต่จะต้องมีข้อมูลขนาดใหญ่ที่แท้จริงโดยเฉพาะข้อมูลธุรกรรมในการวิเคราะห์ ในปัจจุบันบางอุตสาหกรรมเริ่มมีความน่ากลัวที่ต่างชาติเข้าเก็บข้อมูลธุรกรรมเหล่านี้ไปหมด โดยที่หน่วยงานในประเทศเรากลับไม่ให้ความสำคัญ และไม่เข้าใจว่าข้อมูลเหล่านั้นมีความสำคัญยิ่งในการที่จะทำ Big Data ที่แท้จริง สุดท้ายเราก็จะสูญเสียศักยภาพการแข่งขันไป

ธนชาติ นุ่มนนท์

IMC Institute

 

การวิเคราะห์พฤติกรรมลูกค้าควรมีข้อมูลธุรกรรมขนาดใหญ่ของลูกค้าแต่ละราย

Screenshot 2018-08-05 11.29.12

วันก่อนไปที่ร้านขายเฟอร์นิเจอร์แห่งหนึ่งเพราะอยากซื้อ ตู้โชว์แบบเดียวกับที่เคยซื้อเมื่อ 6-7 ปีก่อน เพิ่มอีกซักหนึ่งชุด แต่พอไปถึงหารุ่นนั้นไม่เจอ ก็เลยขอพนักงานดูประวัติการซื้อย้อนหลัง เพราะอยากทราบว่าตอนนั้นซื้อรุ่นไหน สิ่งที่น่าสนใจคือร้านนี้เก็บช้อมูลลูกค้าไว้ทุกรายการที่เราซื้อ รวมถึงวัสดุทุกชิ้น แต่พอเกิน 5 ปีก็ไม่มีข้อมูลแล้ว ซึ่งก็พอเข้าใจได้ว่าข้อมูลเก่าไปและต้องการประหยัดพื้นที่เก็บข้อมูล ก็เลยลบข้อมูลเก่าทิ้งไป ผมว่าที่ร้านมีข้อมูล Big Data ของลูกค้าที่น่าสนใจ เพราะเขาเก็บข้อมูลธุรกรรมการซื้อของลูกค้าไว้ทุกรายการ และเขาทราบข้อมูลที่อยู่ของลูกค้าและเบอร์ติดต่อชัดเจน คำถามที่ผมสนใจก็คือว่าจากข้อมูลที่เขามีอยู่ เขาสามารถที่จะวิเคราะห์พฤติกรรมลูกค้าได้ไหม การเก็บข้อมูลธุรกรรมของลูกค้าไว้เพียง 5 ปีเพียงพอจะวิเคราะห์ข้อมูลลูกค้าเป็นรายบุคคลได้ดีแค่ไหน ลูกค้าแต่ละรายจะมาซื้อเฟอร์นิเจอร์และอุปกรณ์ต่างๆบ่อยแต่ไหนในแต่ละปี

แต่อย่างไรก็ตามสิ่งหนึ่งที่น่าสนใจของร้านนี้คือ เขามีกลยุทธ์ที่ดีในการจะทำ Big data โดยสามารถที่จะให้ลูกค้ามาสมัครเป็นสมาชิก ใส่รายละเอียดที่อยู่ได้ และสามารถเก็บธุรกรรมของลูกค้าได้ อย่างที่ผมเคยบอกไว้ว่าถ้าเราจะทำ Big Data เราควรจะต้องเน้นที่ข้อมูลธุรกรรม (ดูรายละเอียดได้ที่ Big data ต้องเริ่มต้นจากการวิเคราะห์ Transactional data ไม่ใช่เล่นกับ summary data) ซึ่งถ้าได้ข้อมูลเหล่านี้มาก็จะทำให้เราวิเคราะห์ข้อมูลพฤติกรรมลูกค้าได้ดีขึ้น ยิ่งมีจำนวนธุรกรรมของลูกค้าแต่ละรายมากเท่าไรก็ยิ่งดีขึ้น

หากเราพิจารณาข้อมูลที่เป็น Big Data เราอาจเห็นข้อมูลใหญ่ๆอยู่สี่ประเภทคือ

  • Social media data
  • Mobile data
  • Internet of things data
  • Transactional data

ซึ่งจะเห็นได้ว่าข้อมูลที่จะเกี่ยวข้องกับพฤติกรรมลูกค้าที่ธุรกิจต่างๆมักจะมีก็คือข้อมูลธุรกรรมต่างๆที่ลูกค้ามาทำกับธุรกิจเช่น การซื้อสินค้า การติดต่อสื่อสาร เพราะข้อมูล Social media หรือ ข้อมูล Mobile โดยมากมักจะเป็นข้อมูลภายนอกองค์กรธุรกิจ ส่วนข้อมูล IoT ก็จำเป็นจะต้องมีการติดตั้งอุปกรณ์ต่างๆ

1a-transactional-data

แต่ความท้าทายของธุรกิจที่จะมีข้อมูลธุรกรรมเหล่านี้ก็คือกลยุทธ์ในการเก็บข้อมูล บางธุรกิจมีการทำธุรกรรมขายให้กับลูกค้าจำนวนมาก แต่ก็อาจไม่ทราบว่าลูกค้าคือใครเช่น ธุรกิจค้าปลีกต่างๆ ซึ่งบางทีฝ่ายการตลาดก็ต้องพยายามจูงใจให้ลูกค้าสมัครเป็นสมาชิกเพื่อทราบข้อมูลของลูกค้าเป็นรายคน บางธุรกิจลูกค้าก็อาจไม่ได้มาทำธุรกรรมบ่อยนักเช่นประกันภัยรถยนต์ ถ้าจะได้ข้อมูลขนาดใหญ่ก็อาจต้องใช้เทคโนโลยีอย่าง IoT หรือข้อมูล  Mobile มาช่วย ซึ่งในปัจจุบันเราจะเห็นว่าธุรกิจที่มีข้อมูลธุรกรรมลูกค้าแต่ละรายจำนวนมากก็อาจมีกลุ่มต่างๆดังนี้

  • ผู้ให้บริการโทรศัพท์เคลื่อนที่
  • ธนาคาร
  • บริษัทหลักทระพย์
  • ธุรกิจด้านการชำระเงินออนไลน์เข่น  Mobile Payment
  • ธุรกิจค้าปลีกที่ลูกค้าลงทะเบียนข้อมูลบุคคลไว้
  • โรงพยาบาล

ดังนั้นจะเห็นได้ว่าความยากของการทำ Big data ประเด็นหนึ่งก็คือข้อมูลที่ธุรกิจส่วนใหญ่มักจะมีข้อมูลลูกค้าแต่ละรายเป็นจำนวนจำกัด ทำให้ไม่สามารถจะวิเคราะห์ข้อมูลพฤติกรรมลูกค้าได้ ดังนั้นจำเป็นอย่างยิ่งที่ธุรกิจจะต้องร่วมกันวางกลยุทธ์เพื่อให้ได้ข้อมูลเหล่านั้นมา

ธนชาติ นุ่มนนท์

IMC Institute

 

จะทำ Big Data ต้องเริ่มต้นที่ทำ Data Lake

Screenshot 2018-03-24 14.05.42

ช่วงนี้เห็นหน่วยงานต่างๆออกมาพูดเรื่อง Big Data กันอย่างมาก บางคนก็บอกว่าหน่วยงานใช้ Big Data ในการบริหารและตัดสินใจ บ้างก็บอกว่าใช้ในการวิเคราะห์พฤติกรรมประชาชนหรือลูกค้า เราพูดเหมือนกับว่าตอนนี้บ้านเราเรื่องนี้ก้าวหน้าไปมาก เสมือนว่าเรามีข้อมูลใหญ่มหาศาลที่เก็บและนำมาใช้แล้ว เสมือนว่าเรามีโครงสร้างพื้นฐานด้านข้อมูลที่ดีพอ และเสมือนว่าเรามีนักวิเคราะห์ข้อมูลจำนวนมาก

แต่พอหันกลับไปถามว่า แล้ว Big Data ที่ว่าข้อมูลใหญ่แค่ไหน บางคนพูดแค่หลักล้านต้นๆ ไม่มี Transaction Data พอพูดถึงข้อมูลที่เปิดออกมา (Open data) ก็กลายเป็นแค่ Summary data บ้างก็เปิดมาในรูป PDF  ไม่ใช่ข้อมูลในฟอร์แมทดิจิทัลที่พร้อมใช้งาน (อย่าง CSV) ทั้งที่การทำ Big Data ต้องเน้นที่การมี Transactional Data  หรือ Detail Data ที่เก็บรายละเอียดให้มากที่สุด ซึ่งผมเคยเขียนบทความเรื่อง “Big data ต้องเริ่มต้นจากการวิเคราะห์ Transactional data ไม่ใช่เล่นกับ summary data” แต่ก็แปลกใจที่หลายๆหน่วยงานบอกว่าทำ Big Data แต่แทบไม่มีการนำ Transactional Data มาวิเคราะห์แต่อย่างใด

อีกประเด็นที่สำคัญคือโครงสร้างพื้นฐาน ที่เคยเน้นบ่อยๆว่า เราต้องปรับโครงสร้างพื้นฐานด้านข้อมูล (Information infrastructure) โดยเน้นที่การทำ Data Lake แล้วใช้ Data Science ไม่ใช่การทำ Data Warehouse แล้วใช้ Business Intelligence ในรูปแบบเดิมๆ ซึ่งผมเคยเขียนเรื่องนี้ในบทความ “การทำโครงการ Big Data อย่างรวดเร็ว ควรเริ่มอย่างไร” แต่ในปัจจุบันหลายๆหน่วยงานก็ยังไม่เข้าใจกับการทำ Data Lake แล้วก็ยังเน้นไปที่ Data Warehouse อย่างเดิมทั้งๆที่ Data Warehouse จะไม่สามารถรองรับข้อมูลขนาดใหญ่ (Volume) หรือข้อมูลหลากหลายประเภท (Variety) ซึ่งเป็นนิยามสำคัญของ Big Data ได้

Data Lake คืออะไร

Tamara Dull จาก SAS ให้คำนิยามของ Data Lake ไว้ว่า

Dark lake is a storage repository that holds a vast amount of raw data in its native format, including structured, unstructured and semi-structured data. The data structure and requirements are not defined until the data is needed.

จะเห็นได้ว่า Data Lake คือคลังข้อมูลขนาดใหญ่มหาศาล ซึ่งเราจะใช้เก็บข้อมูลที่เป็น Raw data ในหลากหลายรูปแบบทั้ง  Structure, unstructure หรือ semi-structure โดยข้อมูลที่เก็บจะยังไม่ต้องคำนึงถึงโครงสร้างหรือนิยามการใช้งานในตอนต้น

Screenshot 2018-03-27 09.52.29

รูปที่ 1 องค์ประกอบต่างๆของ  Data Lake

เทคโนโลยีที่ใช้เป็น Data Lake โดยมากคือ Hadoop เพราะมีราคาถูกกว่าเทคโนโลยีอื่นๆและมีเครื่องมือในการประมวลผลได้ ในขณะที่ Database หรือ No SQL จะมีข้อจำกัดที่ขนาดของข้อมูลหรือรูปแบบข้อมูลที่จะนำมาเก็บซึ่งอาจได้เฉพาะ  Structure data หรือ semi-structure data บางประเภท นอกจาก Hadoop ก็อาจมีเทคโนโลยีอื่นที่เหมาะในการทำเป็น Data lake ก็คือ Cloud storage หรือ Object storage ที่ราคาถูกกว่า ซึ่งขึ้นอยู่กับหน่วยงานว่าจะเลือกเทคโนโลยีใดมาเป็น Data Lake

ข้อมูลที่เก็บใน Data Lake  จะเป็น Raw Data ที่ไม่สามารถแก้ไขได้ แต่จะทำให้ผู้ใช้สามารถตรวจสอบและดูรายละเอียดของข้อมูลได้มากที่สุด และอาจดูข้อมูลย้อนหลังได้ แต่จุดด้อยของข้อมูลใน Data Lake คือยังเป็นข้อมูลดิบที่อาจไม่สมบูรณ์และขาดความถูกต้อง (Poor quality of data) ซึ่งผู้ใช้งานเช่น Data developer หรือ Data science จะต้องทำการ Cleansing ข้อมูลก่อนให้ Data analyst หรือ Business user นำไปใช้งาน นอกจากก็อาจมีเรื่องของความปลอดภัยของข้อมูล ดังนั้นการใช้งาน Data lake จำเป็นต้องมีการทำ Data Governance ที่ดี

 การจัด Zone สำหรับ Data Lake 

เนื่องจาก Data Lake เป็นที่เก็บข้อมูลขนาดใหญ่ซึ่งมาจากหลายแหล่ง รวมถึงข้อมูลที่ผ่านการประมวลผลแล้ว ดังนั้นการติดตั้ง Data Lake จะต้องทำการแบ่งออกเป็นโซนต่างๆ ทั้งหมด 4 ส่วน ดังนี้

Screenshot 2018-03-27 10.07.21

รูปที่  2 แสดงโซนต่างๆ ของ Data Lake (จาก Data Lake Governance Best Practices, Parth Patel and Adam Diaz)

  1. Transient Zone ข้อมูลที่เข้าสู่ Data Lake จะถูกนำมาพักไว้ใน Zone นี้ก่อนบันทึกลง Storage  
  2. Raw Zone เป็นข้อมูลดิบที่ยังไม่ผ่านการทำความสะอาดหรือปรับรูปแบบใดๆ ซึ่งโดยส่วนใหญ่แล้วนักพัฒนาข้อมูล หรือนักวิทยาศาสตร์ข้อมูลมักจะใช้ข้อมูลใน Raw Zone นี้
  3. Trusted Zone เป็นข้อมูลที่มาจาก Raw Zone ซึ่งผ่านกระบวนการทำความสะอาดข้อมูลตามมาตรฐานและกฎเกณฑ์ที่กำหนดแล้วเพื่อคุณภาพข้อมูล ข้อมูลใน Zone นี้เป็นแหล่งข้อมูลหลักที่จะถูกใช้โดยนักวิเคราะห์ข้อมูลและผู้ใช้โดยทั่วไป เพื่อให้สามารถใช้ข้อมูลได้ง่าย
  4. Refined Zone เป็นข้อมูลที่ผ่านกระบวนการประมวลผลแล้ว

การจัดทำ Data Catalog

การแบ่งโฟลเดอร์ต่างๆ ใน Data Lake อาจช่วยทำให้ผู้ใช้สามารถเข้าใจโครงสร้างข้อมูลต่างๆ ที่อยู่ใน Hadoop Cluster ได้ดีขึ้น แต่ยังจำเป็นต้องหาเครื่องมือมาทำ Data Catalog เพื่อ

  • เพิ่มประสิทธิภาพของการค้นหาข้อมูล ทำให้ค้นหาข้อมูลได้เร็วและสะดวกขึ้น
  • จัดการสิทธิการเข้าถึงข้อมูลได้ดีขึ้น โดยเฉพาะข้อมูลที่อาจละเมิดสิทธิส่วนบุคคล
  • สามารถลดค่าใช้จ่ายในการเก็บข้อมูลซ้อนหรือกักตุนข้อมูล
  • สนับสนุนการติดตามข้อมูลตลอดทั้งวงจรชีวิต ของข้อมูลทำให้การทำ Data Governance สะดวกและปลอดภัยขึ้น โดยเฉพาะข้อมูลที่เกี่ยวข้องทางด้านกฎหมาย

ควรจะต้องเป็นเครื่องมือที่สามารถทำ Catalog ได้โดยอัตโนมัติและสามารถใช้งานได้โดยง่าย ซึ่งในปัจจุบันมีผู้ผลิตหลายราย เช่น Teradata Loom, Waterline Data Invertory, Cloudera Navigator, Informatica Governed หรือ Apache Atlas เป็นต้น

การใช้งาน Data Lake

เราสามารถสรุปตัวอย่างการทำงานต่างๆของ Data Lake ได้ในรูปที่ 3 ซึ่งจะเห็นขั้นตอนต่างๆในการใช้งาน Data Lake  (ในรูปคือ Hadoop ที่อาจใช้ Distribution ต่างๆอาทิเช่น Cloudera, Hortonworks หรือ  MapR) ดังนี้

Screenshot 2018-03-27 10.10.16

รูปที่  3 Data Lake ​Workflow (จาก Enterprise Data Lake: Architecture Using Big Data Technologies – Bhushan Satpute)

  1. มีการดึงมูลจากแหล่งต่างๆอาทิเช่น Transaction, OLTP, Document, IoT หรือ Social Media เข้ามาเก็บใน Data Lake
  2. ข้อมูลที่ดึงเข้ามาอาจเป็น Real-time streaming data ในบางกรณี
  3. กรณีข้อมูลที่เก็บใน Data lake เป็นข้อมูลที่มีความอ่อนไหว (sensitive data) เราอาจต้องทำการเข้ารหัสข้อมูล
  4. Data developer สามารถใช้เครื่องมือในการประมวลข้อมูลที่มากับ Data Lake เช่น Apache spark หรือ Hive เพื่อปรับปรุงข้อมูลให้มีคุณภาพมากขึ้น และอาจเก็บใน Trusted zone
  5. ทำการเคลื่อนย้ายข้อมูลที่มีคุณภาพมากขึ้นเข้าสู่ Data warehouse เพื่อให้นักวิเคราะห์ข้อมูล (Data Analyst) หรือผู้ใช้ทั่วไป (Business user) ใช้งานต่อ
  6. มีการสร้าง Schema หรือ meta-data ของข้อมูล รวมถึงการทำ Governance
  7. นักวิเคราะห์ข้อมูลหรือผู้ใช้ทั่วไป สามารถใช้เครื่องมืออย่าง Data visualization เพื่อวิเคราะห์ข้อมูลจาก  Data warehouse ได้
  8. Data scientist หรือ Data developer  ก็สามารถที่จะเข้าถึงข้อมูลของ Data Lake แล้วนำข้อมูลมาทำ Big data analytics ได้

ที่เขียนมาทั้งหมดนี้ก็เพื่อสร้างความเข้าใจให้เห็นภาพว่า หัวใจสำคัญของการทำ Big data เรื่องหนึ่งคือการพัฒนา Data Lake ในองค์กร

ธนชาติ นุ่มนนท์

IMC Institute

มีนาคม 2561

 

 

 

 

 

Mini Project ในหลักสูตร Big data certification

Screenshot 2018-04-02 08.54.14

เมื่อวันเสาร์ที่ 20 มกราคม ทาง IMC Institute ได้จัดให้ผู้เรียนหลักสูตร Big Data Certification รุ่นที่ 6 ที่เรียนกันมาสี่เดือนตั้งแต่เดือนกันยายนปีที่แล้ว รวม 120 ชั่วโมง ได้มานำเสนอ Mini-project ของตัวเองโดยมีผู้นำเสนอสามกลุ่มคือ

  • กลุ่ม Anime Recommendation ที่มีการนำข้อมูลการดูการ์ตูนจำนวน 7.8 ล้านเรคอร์ดจากหนังการ์ตูน 12,294 เรื่องจาก Kaggle มาทำ Recommendation โดยใช้ ALS algorithm, ทำ Clustering โดยใช้ K-Means algorithm และมีการวิเคราะห์จำนวนการดูหนังแบบ Real-time โดยใช่ KafKa และ Spark streaming (Slide การนำเสนอสามารถดูได้ที่ >> Anime slide)
  • กลุ่ม Telecom churn analysis ที่มีการวิเคราะห์การย้ายค่ายโทรศัพท์มือถือของผู้ใช้ โดยการนำข้อมูลมาวิเคราะห์ดูลักษณะของการย้ายค่าย ทำ Visualisation แสดงผลการวิเคราะห์ต่างๆและมีการทำ  Predictive analytic โดยใช้ Decision Tree Algorithm (Slide การนำเสนอสามารถดูได้ที่ >> Telecom churn slide)
  • กลุ่ม Crime Analysis เป็นการนำข้อมูลอาชญากรรมในเมือง Chicago จำนวน 6 ล้านเรคอร์ด มาทำ Classification โดยใช้ Decision Tree Algorithm เพื่อจะวิเคราะห์ว่าอาชญกรรมกรณีไหน ในสถานการณ์และวันอย่างไร ที่มีโอกาสที่จะจับผู้ร้ายได้สูง   (Slide การนำเสนอสามารถดูได้ที่ >> Crime analysis slide)

Screenshot 2018-01-21 13.22.52

ผมพบกว่านำเสนอของทั้งสามกลุ่ม เข้าใจหลักการของการทำ Big data ได้เป็นอย่างดีตั้งแต่ การทำความเข้าใจปัญหา การเตรียมข้อมูล การใช้เทคโนโลยีและเครื่องมือต่างๆ และรวมถึงการใช้ Algorithm ในการวิเคราะห์ แต่ผัญหาที่เรามักจะเห็นมนบ้านเรากลับเป็นเรื่องของข้อมูลที่ยังมีไม่มากทำให้ขาดโอกาสที่จะใช้ความรู้ในการวิเคราะห์ข้อมูลของบ้านเรามากกว่า ซึ่งหากมีข้อมูลคนที่ผ่านหลักสูตร Big data certification เหล่านี้จำนวน 6 รุ่นแล้ว ก็น่าจะเป็นกำลังสำคัญที่เข้ามาช่วยพัฒนาการวิเคราะห์ข้อมูลขนาดใหญ่ในบ้านเราได้ในอนาคต

สำหรับ IMC Institute เราก็จะจัดงานเพื่อให้ผู้ทีผ่านการอบรมหรือบุคคลทั่วไปได้ลองมาแข่งกันทำ Mini project ในลักษณะนี้ ในโครงการที่ชื่อว่า Big data hackathon โดยตั้งใจจะจัดขึ้นในวันที่ 24-25 กุมภาพันธ์นี้ โดยไม่มีค่าใช้จ่ายใดๆ ซึ่งผู้สนใจสามารถติดต่อเข้าร่วมโครงการสามารถดูรายละเอียดการสมัครได้ที่ www.imcinstitute.com/hackathon ภายในวันที่ 16 กุมภาพันธ์ พ.ศ. 2561

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2561

Big data ต้องเริ่มต้นจากการวิเคราะห์ Transactional data ไม่ใช่เล่นกับ summary data

ผมเคยเข้าไปหลายหน่วยงานที่มีความต้องการทำ Big Data Analytics แต่พอไปถามหาข้อมูลที่มีอยู่และจะให้หน่วยงานย่อยต่างๆรวบรวมมาก็มักจะมองเรื่องข้อมูลสรุป (Summary data) แต่หน่วยงานกลับคาดหวังว่าจะนำข้อมูลสรุปเหล่านี้มาวิเคราะห์ข้อมูลต่างๆเช่นพฤติกรรมลูกค้าหรือทำความเข้าใจกับปัญหาต่างๆอย่างละเอียด ซึ่งผมก็มักจะตอบไปว่าทำได้ยาก

การจะทำ Big Data Analytics ที่ดีได้ต้องมีข้อมูลที่เป็นรายละเอียดย่อยมากที่สุดเท่าที่ทำได้ อาทิเช่น Transactional data ที่อาจมองถึงการทำธุรกรรมทุกรายการ เพื่อให้เห็นภาพที่ชัดเจนขึ้น ผมขอเปรียบเทียบรูปที่ 1 ซึ่งเป็นข้อมูลสรุปที่บอกถึงการใช้บัตร Startbucks ของลูกค้ารายหนึ่ง กับข้อมูลที่เป็น Transaction ของลูกค้ารายเดียวกันในรูปที่ 2  จากข้อมูลสรุปของลูกค้าเราอาจเห็นเพียงว่าลูกค้ามีบัตรสามใบและเป็นลูกค้าบัตรทองที่มีวงเงินอยู่ 1,871.25 บาท แต่ถ้าจะถามและวิเคราะห์ข้อมูลต่างๆอาทิเช่น

  • ลูกค้ามาทาน Starbucks บ่อยแค่ไหน?
  • ลูกค้าจะมาร้านเวลาไหน และคาดการณ์ว่าเขาจะมาอีกเมื่อไร?
  • ลูกค้ามาทานกาแฟปกติคนเดียวหรือหลายคน?

ข้อมูลต่างๆเหล่านี้ ที่เราต้องการทำ Big Data Analytics ในลักษณะการคาดการณ์จะไม่สามารถที่จะหามาได้จากการใช้  Summary data  แต่ถ้าเรามีข้อมูลรายละเอียดอย่าง Transaction data ในรูปที่ 2 เราจะเห็นได้ว่าเราอาจพอคาดการณ์ได้ว่า ลูกค้ารายนี้มักจะมาทานกาแฟตอนเช้าและอาจมาคนเดียวโดยดูจากเวลาที่มาและอาจดูยอดเงินที่ใช้จ่าย และหาก Transaction data มีรายละเอียดมากกว่านี้เช่น รายการอาหารที่สั่ง หรือสาขาที่ไปทาน เราก็จะยิ่งสามารถวิเคราะห์ข้อมูลได้ละเอียดยิ่งขึ้น

Screenshot 2018-01-18 12.59.10

รูปที่ 1 Summary data บัตร Starbucks ของลูกค้ารายหนึ่ง

Screenshot 2018-01-18 12.59.29

รูปที่ 2 Transactional data ของลูกค้ารายเดียวกัน

ดังนั้นหลักการสำคัญของ Big Data Analytics ก็คือการที่เราสามารถเก็บข้อมูล Transactional data ให้มากที่สุดและมีรายละเอียดมากที่สุดเท่าที่ทำได้ ผมมักจะถามคนเสมอว่าหน่วยงานในประเทศหน่วยงานมีข้อมูลที่มีขนาดใหญ่และเหมาะกับการทำ Big Data อย่างมาก หลายครั้งผมมักจะได้ยินคำตอบว่าเป็นข้อมูลของกรมการปกครองที่เก็บข้อมูลประชาชน ซึ่งโดยแท้จริงแล้วกรมฯจะมีเพียงข้อมูลสรุปและข้อมูลเคลื่อนไหวในลักษณะ Transactional data จะมีน้อยมาก (จึงไม่แปลกใจที่บางครั้งที่อยู่ในบัตรก็ยังไม่ถูกต้องเมื่อเทียบกับที่อยู่จริงๆ) แต่จริงๆหน่วยงานที่มีข้อมูลเยอะจริงๆในประเทศไทยคือกลุ่ม Telecom ที่ให้บริการโทรศัพท์เคลื่อนที่ ซึ่งจะมีข้อมูลการใช้มือถือตลอดเวลาที่ป้อนเข้ามาอย่างเช่น CDR ที่มีปริมาณข้อมูลต่อวันเป็นหมื่นหรือแสนล้านเรคอร์ด ด้วยข้อมูลมหาศาลขนาดนี้ก็ทำให้ผู้ให้บริการมือถือสามารถวิเคราะห์ข้อมูลลูกค้าได้เป็นอย่างดี เพราะทราบตำแหน่ง รูปแบบการใช้งาน เวลาในการโทร โทรศัพท์ที่ใช้ ค่าใช้จ่ายต่างๆ

นอกเหนือจากกลุ่มผู้ให้บริการโทรศัพท์เคลื่อนที่แล้วธุรกิจกลุ่มไหนอีกละที่มีข้อมูลขนาดใหญ่ในลักษณะ Transactional data

  • ธนาคารจะมีข้อมูล Transaction  จากการที่ลูกค้ามาทำธุรกรรมที่สาขา, Intenet banking หรือ mobile banking และหากมีข้อมูลจาก QR payment ในอนาคตก็จะมีข้อมูลลูกค้าละเอียดยิ่งขึ้น
  • หลักทรัพย์ก็จะมีธุรกรรมการซื้อขายแต่ละรายการอย่างละเอียด ทำให้ทราบว่าใครซื้อขาย หุ้นตัวไหน เวลาใด
  • ค้าปลีกจะมีข้อมูลรายการซื้อ ขายและสั่งสินค้ามาอย่างละเอียด และถ้าสามารถเก็บข้อมูลลูกค้าได้ ก็จะยิ่งทำให้เข้าใจได้ว่าลูกค้าคือใคร ยิ่งมีจำนวนธุรกรรมมากขึ้นเท่าไรก็ยิ่งสามารถวิเคราะห์ได้ละเอียดยิ่งขึ้น
  • โรงพยายบาลก็จะมีข้อมูลการเข้ามาตรวจรักษาของลูกค้า การสั่งยา
  • Smart home จะมีข้อมูล Log การใช้งานอุปกรณ์ต่างๆ

จากที่กล่าวมาทั้งหมดนี้จะเห็นได้ว่าถ้าเราจะทำ Big Data Analytics ได้ดีเราต้องพยายามหา Transactional data มาเก็บให้มากที่สุด อาทิเช่น

  • หากภาครัฐมีข้อมูลรายละเอียดการจ่ายภาษี VAT ของผู้เสียภาษีแบบปลีกย่อยมาที่สุดลงเป็นรายการ รายวัน หรือมีข้อมูลรายรับของประชาชนเป็นรายการย่อยมากที่สุดก็จะทำให้วิเคราะห์และประมาณการภาษีได้อย่างถูกต้อง
  • หากเราต้องการทราบข้อมูลคนจนที่ลงทะเบียนผู้มีรายได้น้อยของภาครัฐ เราอาจต้องเก็บข้อมูลการใช้บัตรคนจนตามร้านธงฟ้าหรือบริการต่างๆของภาครัฐเป็นรายการย่อยๆทั้งหมด เราก็อาจวิเคราะห์พฤติกรรมและตอบได้ว่าคนเหล่านี้จนจริงหรือไม่
  • หากกระทรวงสาธารณสุขมีข้อมูลรายละเอียดการใช้บริการการแพทย์ของประชาขน อย่างละเอียดมากที่สุด เราก็จะสามารถบริหารงานด้านสาธารณสุขให้มีประสิทธิภาพได้ดียิ่งขึ้น

ดังนั้นการเริ่มทำ Big Data จำเป็นต้องคำนึงถึง Transactional data ที่มีในองค์กรและต้องเอามาเก็บให้ได้เสียก่อน ถึงจะทำการวิเคราะห์ข้อมูลได้อย่างถูกต้อง ไม่ใช่เป็นการเล่นกับ Summary data โดยเราอาจต้องตั้งคำถามว่าเรามีข้อมูลลูกค้าแต่ละรายหรือข้อมูลสินค้าแต่ละรายการมากพอที่จะมาทำการวิเคราะห์หรือไม่ ถ้ามีข้อมูลลูกค้าเพื่อเดือนละรายการมันเพียงพอไหม หรือควรจะต้องเห็นทุกวัน หรือต้องเห็นทุกชั่วโมง  หรือบางอย่างอาจมีข้อมูลทุกนาที ขึ้นอยู่กับธุรกิจและลักษณะงานแล้วเราถึงจะวิเคราะห์ข้อมูลได้

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2561

 

การอบรม Big Data และกิจกรรมด้านนี้ของ IMC Institute ในปี 2018

Screenshot 2018-03-24 14.05.42

IMC Institute เปิดการอบรมด้าน Emerging Technology ต่างๆทั้ง Cloud computing, Big data, Internet of things และ Blockchain มาเป็นเวลา 5 ปี ตลอดเวลาที่ผ่านมา IMC Institute ได้มีโอกาสอบรมคนทั้งหมด 14,882 คน/ครั้ง*(ผู้เข้าอบรมบางท่านอาจเข้าอบรมมากกว่าหนึ่งครั้ง) โดยแบ่งเป็นการอบรมที่เป็นหลักสูตรที่เปิดสอนทั่วไปจำนวน 308 ครั้งมีผู้เข้าอบรม 5,628  คน/ครั้ง หลักสูตรที่เป็น In-House ที่จัดให้หน่วยงานต่างๆจำนวน 195 ครั้งมีผู้เข้าอบรม 6,233  คน/ครั้ง และการอบรมแบบฟรีสัมมนาหรืองานฟรีต่างๆจำนวน 43 ครั้งมีผู้เข้าอบรม 3,021 คน/ครั้ง

ในการอบรมด้านเทคโนโลยี Big Data ทาง IMC Institute ได้เริ่มสอนหลักสูตรด้าน Hadoop ตั้งแต่เดือนมีนาคมปี 2013 และในปัจจุบันได้เปิดหลักสูตรออกมาในหลายๆหลักสูตรสำหรับหลายๆกลุ่ม ทั้งในระดับผู้บริหารอย่างหลักสูตร Big data for senior management หรือหลักสูตรสำหรับ Developer หรือ  Big Data Engineer อย่าง Big Data Architecture and Analytics Platform และ Big Data Analytics as a Service for Developer หรือ หลักสูตรสำหรับ Business Analyst อย่าง Business Intelligence Design and Process หรือ Data Visualisation Workshop รวมถึงหลักสูตรด้าน Data Science อย่าง Machine Learning for Data Science รงมถึงมีหลักสูตรที่ใช้เวลาเรียนทั้งหมด 120 ชั่วโมงอย่าง Big Data Certification Course ที่สอนไปแล้ว 6  รุ่นรวม 180 คน ซึ่งหลักสูตรด้าน Big Data ทั้งหมดของ IMC Institute แสเงไว้ดังรูป

Screenshot 2018-01-16 11.13.32

หากมองถึงจำนวนผู้เข้าอบรมหลักสูตรด้าน Big Data ทาง IMC Institute ได้จัดการอบรมไปทั้งสิ้น 182 ครั้ง แบ่งเป็นการอบรมทั่วไป 91 ครั้ง, การอบรม In-house 66 ครั้ง และงานฟรีสัมมนา/Hackaton 25 ครั้ง โดยมีผู้เข้าอบรมทั้งสิ้นรวม 5,943 คน/ครั้ง เป็นการอบรมทั่วไป 1,860 คน/ครั้ง, การอบรม In-house 2,045 คน/ครั้ง และงานฟรีสัมมนา/Hackaton 2,038 คน/ครั้ง

Screenshot 2018-01-16 11.33.35

ในช่วง 5 ปีที่ผ่านมาทาง IMC Institute ยังมีการอบรมให้กับอาจารย์ในสถาบันอุดมศึกษาลักษณะ Train the trainer หลักสูตรด้าน Big Data และ Machine Learning ปีละหนึ่งรุ่นๆละประมาณ 30 คน เพื่อให้อาจารย์นำเอาเนื้อหาและเอกสารต่างๆไปสอนกับนักศึกษาในสถาบัน โดยอบรมมาแล้ว 5 รุ่นจำนวนอาจารย์ที่มาเรียนกว่า 150 คน และเมื่อสองปีก่อนทาง IMC Institute ก็ได้จัดการอบรมในลักษณะ On the job training ให้กับนักศึกษาในมหาวิทยาลัยปี 3 และ 4 เป็นเวลาสองเดือนโดยไม่ได้คิดค่าใช้จ่ายใดๆกับนักศึกษาผู้เข้าอบรม ทาง IMC Institute ได้จัดไปแล้วสองรุ่นมีผู้ผ่านการอบรมจำนวน 26 คน ซึ่งนักศึกษาปีสี่ที่ผ่านการอบรมก็เข้าไปทำงานต่อด้าน Big Data กับบริษัทต่างๆจำนวนมากอาทิเช่น G-Able, Humanica หรือ PTG Energy

นอกจากนี้ทาง IMC Institute ก็ยังมีโครงการฟรีสัมมนาทางด้านนี้เป็นประจำทุกเดือนให้กับผู้ที่สนใจทั่วไปเข้าฟัง โดยมีหัวข้อต่างๆอาทิเช่น Big Data on Public Cloud หรือ AI Trend to Realistic cases รวมถึงการจัด Big Data Hackatonในช่วงวันเสาร์-อาทิตย์ที่ทำมาแล้ว 5 ครั้ง

สำหรับในปี 2018 ทาง IMC Institute ก็ยังเปิดหลักสูตรด้าน Big Data ต่างๆอยู่เป็นจำนวนมากและมีการปรับเนื้อหาให้ผู้เข้าอบรมสามารถเข้าไปทำงานได้จริงโดยใช้ Public cloud computing service และ Big data as a service ที่เป็นบริการบน public cloud ที่ทำให้องค์กรต่างๆสามารถเรื่มทำโครงการ Big Data ได้อย่างรวดเร็ว โดยผู้สนใจสามารถมาดูข้อมูลหลักสูตรต่างๆด้าน Big Data ได้ที่ >> Big Data Track

นอกจากนี้ยังมีโครงการอบรมต่างๆที่น่าสนใจดังนี้

  • Big Data Certification Course รุ่นที่ 7 ที่เป็นหลักสูตร 120 ชั่วโมง เรียนทุกวันพฤหัสบดีเย็นและวันเสาร์ โดยจะเปิดเรียนวันที่ 15 มีนาคม 2018
  • Big Data Hackathon  ครั้งที่ 6 โครงการฟรีให้กับบุคคลที่เคยผ่านหลักสูตรการอบรมแบบ Hands-on ของ IMC Institute โดยจะจัดเพื่อให้ผู้สนใจได้ฝึกการแก้ปัญหากับข้อมูลขนาดใหญ่โดยมีรางวัลเป็น Google Home Mini สำหรับทีมที่ชนะแกสมาชิกในทีมท่านละหนึ่ง โดยจะจัดขึ้นวันที่ 24-25 กุมภาพันธ์ 2018
  • Big Data School: On the job training รุ่นที่  3 เป็นโครงกาiฝึกงานนี้มีเป้าหมายเพื่อจะอบรมและสอนให้ผู้เข้าฝึกงานได้เรียนรู้เรื่อง Big Data Technology อย่างเข้มข้น จะทำให้ผู้เรียนมีทักษะที่จะเป็น Data Engineer, Data Analyst และสามารถต่อยอดเป็น Data Scientist ได้ ในการทำโครงการ Big Data จากการติดตั้ง Big Data Infrastructure จริง ๆ บนระบบ Cloud โดยเป็นโครงการอบรมฟรีจำนวนสองเดือนให้กับนักศึกษาปีที่ 4 หรือ 3 โดยจัดตั้งแต่วันที่ 30 พฤษภาคม – 26 กรกฎาคม 2018

หากท่านใดสนใจโครงการอบรมต่างๆเหล่านี้ก็สามารถติดต่อได้ที่ contact@imcinstitute.com หรือเบอร์มือถือ  088-192-7975, 087-593-7974

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2561