Mini Project ในหลักสูตร Big data certification

Screenshot 2018-01-21 13.16.22

เมื่อวันเสาร์ที่ 20 มีนาคม ทาง IMC Institute ได้จัดให้ผู้เรียนหลักสูตร Big Data Certification รุ่นที่ 6 ที่เรียนกันมาสี่เดือนตั้งแต่เดือนกันยายนปีที่แล้ว รวม 120 ชั่วโมง ได้มานำเสนอ Mini-project ของตัวเองโดยมีผู้นำเสนอสามกลุ่มคือ

  • กลุ่ม Anime Recommendation ที่มีการนำข้อมูลการดูการ์ตูนจำนวน 7.8 ล้านเรคอร์ดจากหนังการ์ตูน 12,294 เรื่องจาก Kaggle มาทำ Recommendation โดยใช้ ALS algorithm, ทำ Clustering โดยใช้ K-Means algorithm และมีการวิเคราะห์จำนวนการดูหนังแบบ Real-time โดยใช่ KafKa และ Spark streaming (Slide การนำเสนอสามารถดูได้ที่ >> Anime slide)
  • กลุ่ม Telecom churn analysis ที่มีการวิเคราะห์การย้ายค่ายโทรศัพท์มือถือของผู้ใช้ โดยการนำข้อมูลมาวิเคราะห์ดูลักษณะของการย้ายค่าย ทำ Visualisation แสดงผลการวิเคราะห์ต่างๆและมีการทำ  Predictive analytic โดยใช้ Decision Tree Algorithm (Slide การนำเสนอสามารถดูได้ที่ >> Telecom churn slide)
  • กลุ่ม Crime Analysis เป็นการนำข้อมูลอาชญากรรมในเมือง Chicago จำนวน 6 ล้านเรคอร์ด มาทำ Classification โดยใช้ Decision Tree Algorithm เพื่อจะวิเคราะห์ว่าอาชญกรรมกรณีไหน ในสถานการณ์และวันอย่างไร ที่มีโอกาสที่จะจับผู้ร้ายได้สูง   (Slide การนำเสนอสามารถดูได้ที่ >> Crime analysis slide)

Screenshot 2018-01-21 13.22.52

ผมพบกว่านำเสนอของทั้งสามกลุ่ม เข้าใจหลักการของการทำ Big data ได้เป็นอย่างดีตั้งแต่ การทำความเข้าใจปัญหา การเตรียมข้อมูล การใช้เทคโนโลยีและเครื่องมือต่างๆ และรวมถึงการใช้ Algorithm ในการวิเคราะห์ แต่ผัญหาที่เรามักจะเห็นมนบ้านเรากลับเป็นเรื่องของข้อมูลที่ยังมีไม่มากทำให้ขาดโอกาสที่จะใช้ความรู้ในการวิเคราะห์ข้อมูลของบ้านเรามากกว่า ซึ่งหากมีข้อมูลคนที่ผ่านหลักสูตร Big data certification เหล่านี้จำนวน 6 รุ่นแล้ว ก็น่าจะเป็นกำลังสำคัญที่เข้ามาช่วยพัฒนาการวิเคราะห์ข้อมูลขนาดใหญ่ในบ้านเราได้ในอนาคต

สำหรับ IMC Institute เราก็จะจัดงานเพื่อให้ผู้ทีผ่านการอบรมหรือบุคคลทั่วไปได้ลองมาแข่งกันทำ Mini project ในลักษณะนี้ ในโครงการที่ชื่อว่า Big data hackathon โดยตั้งใจจะจัดขึ้นในวันที่ 24-25 กุมภาพันธ์นี้ โดยไม่มีค่าใช้จ่ายใดๆ ซึ่งผู้สนใจสามารถติดต่อเข้าร่วมโครงการสามารถดูรายละเอียดการสมัครได้ที่ www.imcinstitute.com/hackathon ภายในวันที่ 16 กุมภาพันธ์ พ.ศ. 2561

ธนชาติ นุ่มนนท์

IMC Institute

Big data ต้องเริ่มต้นจากการวิเคราะห์ Transactional data ไม่ใช่เล่นกับ summary data

Screenshot 2018-01-16 11.10.07

ผมเคยเข้าไปหลายหน่วยงานที่มีความต้องการทำ Big Data Analytics แต่พอไปถามหาข้อมูลที่มีอยู่และจะให้หน่วยงานย่อยต่างๆรวบรวมมาก็มักจะมองเรื่องข้อมูลสรุป (Summary data) แต่หน่วยงานกลับคาดหวังว่าจะนำข้อมูลสรุปเหล่านี้มาวิเคราะห์ข้อมูลต่างๆเช่นพฤติกรรมลูกค้าหรือทำความเข้าใจกับปัญหาต่างๆอย่างละเอียด ซึ่งผมก็มักจะตอบไปว่าทำได้ยาก

การจะทำ Big Data Analytics ที่ดีได้ต้องมีข้อมูลที่เป็นรายละเอียดย่อยมากที่สุดเท่าที่ทำได้ อาทิเช่น Transactional data ที่อาจมองถึงการทำธุรกรรมทุกรายการ เพื่อให้เห็นภาพที่ชัดเจนขึ้น ผมขอเปรียบเทียบรูปที่ 1 ซึ่งเป็นข้อมูลสรุปที่บอกถึงการใช้บัตร Startbucks ของลูกค้ารายหนึ่ง กับข้อมูลที่เป็น Transaction ของลูกค้ารายเดียวกันในรูปที่ 2  จากข้อมูลสรุปของลูกค้าเราอาจเห็นเพียงว่าลูกค้ามีบัตรสามใบและเป็นลูกค้าบัตรทองที่มีวงเงินอยู่ 1,871.25 บาท แต่ถ้าจะถามและวิเคราะห์ข้อมูลต่างๆอาทิเช่น

  • ลูกค้ามาทาน Starbucks บ่อยแค่ไหน?
  • ลูกค้าจะมาร้านเวลาไหน และคาดการณ์ว่าเขาจะมาอีกเมื่อไร?
  • ลูกค้ามาทานกาแฟปกติคนเดียวหรือหลายคน?

ข้อมูลต่างๆเหล่านี้ ที่เราต้องการทำ Big Data Analytics ในลักษณะการคาดการณ์จะไม่สามารถที่จะหามาได้จากการใช้  Summary data  แต่ถ้าเรามีข้อมูลรายละเอียดอย่าง Transaction data ในรูปที่ 2 เราจะเห็นได้ว่าเราอาจพอคาดการณ์ได้ว่า ลูกค้ารายนี้มักจะมาทานกาแฟตอนเช้าและอาจมาคนเดียวโดยดูจากเวลาที่มาและอาจดูยอดเงินที่ใช้จ่าย และหาก Transaction data มีรายละเอียดมากกว่านี้เช่น รายการอาหารที่สั่ง หรือสาขาที่ไปทาน เราก็จะยิ่งสามารถวิเคราะห์ข้อมูลได้ละเอียดยิ่งขึ้น

Screenshot 2018-01-18 12.59.10

รูปที่ 1 Summary data บัตร Starbucks ของลูกค้ารายหนึ่ง

Screenshot 2018-01-18 12.59.29

รูปที่ 2 Transactional data ของลูกค้ารายเดียวกัน

ดังนั้นหลักการสำคัญของ Big Data Analytics ก็คือการที่เราสามารถเก็บข้อมูล Transactional data ให้มากที่สุดและมีรายละเอียดมากที่สุดเท่าที่ทำได้ ผมมักจะถามคนเสมอว่าหน่วยงานในประเทศหน่วยงานมีข้อมูลที่มีขนาดใหญ่และเหมาะกับการทำ Big Data อย่างมาก หลายครั้งผมมักจะได้ยินคำตอบว่าเป็นข้อมูลของกรมการปกครองที่เก็บข้อมูลประชาชน ซึ่งโดยแท้จริงแล้วกรมฯจะมีเพียงข้อมูลสรุปและข้อมูลเคลื่อนไหวในลักษณะ Transactional data จะมีน้อยมาก (จึงไม่แปลกใจที่บางครั้งที่อยู่ในบัตรก็ยังไม่ถูกต้องเมื่อเทียบกับที่อยู่จริงๆ) แต่จริงๆหน่วยงานที่มีข้อมูลเยอะจริงๆในประเทศไทยคือกลุ่ม Telecom ที่ให้บริการโทรศัพท์เคลื่อนที่ ซึ่งจะมีข้อมูลการใช้มือถือตลอดเวลาที่ป้อนเข้ามาอย่างเช่น CDR ที่มีปริมาณข้อมูลต่อวันเป็นหมื่นหรือแสนล้านเรคอร์ด ด้วยข้อมูลมหาศาลขนาดนี้ก็ทำให้ผู้ให้บริการมือถือสามารถวิเคราะห์ข้อมูลลูกค้าได้เป็นอย่างดี เพราะทราบตำแหน่ง รูปแบบการใช้งาน เวลาในการโทร โทรศัพท์ที่ใช้ ค่าใช้จ่ายต่างๆ

นอกเหนือจากกลุ่มผู้ให้บริการโทรศัพท์เคลื่อนที่แล้วธุรกิจกลุ่มไหนอีกละที่มีข้อมูลขนาดใหญ่ในลักษณะ Transactional data

  • ธนาคารจะมีข้อมูล Transaction  จากการที่ลูกค้ามาทำธุรกรรมที่สาขา, Intenet banking หรือ mobile banking และหากมีข้อมูลจาก QR payment ในอนาคตก็จะมีข้อมูลลูกค้าละเอียดยิ่งขึ้น
  • หลักทรัพย์ก็จะมีธุรกรรมการซื้อขายแต่ละรายการอย่างละเอียด ทำให้ทราบว่าใครซื้อขาย หุ้นตัวไหน เวลาใด
  • ค้าปลีกจะมีข้อมูลรายการซื้อ ขายและสั่งสินค้ามาอย่างละเอียด และถ้าสามารถเก็บข้อมูลลูกค้าได้ ก็จะยิ่งทำให้เข้าใจได้ว่าลูกค้าคือใคร ยิ่งมีจำนวนธุรกรรมมากขึ้นเท่าไรก็ยิ่งสามารถวิเคราะห์ได้ละเอียดยิ่งขึ้น
  • โรงพยายบาลก็จะมีข้อมูลการเข้ามาตรวจรักษาของลูกค้า การสั่งยา
  • Smart home จะมีข้อมูล Log การใช้งานอุปกรณ์ต่างๆ

จากที่กล่าวมาทั้งหมดนี้จะเห็นได้ว่าถ้าเราจะทำ Big Data Analytics ได้ดีเราต้องพยายามหา Transactional data มาเก็บให้มากที่สุด อาทิเช่น

  • หากภาครัฐมีข้อมูลรายละเอียดการจ่ายภาษี VAT ของผู้เสียภาษีแบบปลีกย่อยมาที่สุดลงเป็นรายการ รายวัน หรือมีข้อมูลรายรับของประชาชนเป็นรายการย่อยมากที่สุดก็จะทำให้วิเคราะห์และประมาณการภาษีได้อย่างถูกต้อง
  • หากเราต้องการทราบข้อมูลคนจนที่ลงทะเบียนผู้มีรายได้น้อยของภาครัฐ เราอาจต้องเก็บข้อมูลการใช้บัตรคนจนตามร้านธงฟ้าหรือบริการต่างๆของภาครัฐเป็นรายการย่อยๆทั้งหมด เราก็อาจวิเคราะห์พฤติกรรมและตอบได้ว่าคนเหล่านี้จนจริงหรือไม่
  • หากกระทรวงสาธารณสุขมีข้อมูลรายละเอียดการใช้บริการการแพทย์ของประชาขน อย่างละเอียดมากที่สุด เราก็จะสามารถบริหารงานด้านสาธารณสุขให้มีประสิทธิภาพได้ดียิ่งขึ้น

ดังนั้นการเริ่มทำ Big Data จำเป็นต้องคำนึงถึง Transactional data ที่มีในองค์กรและต้องเอามาเก็บให้ได้เสียก่อน ถึงจะทำการวิเคราะห์ข้อมูลได้อย่างถูกต้อง ไม่ใช่เป็นการเล่นกับ Summary data โดยเราอาจต้องตั้งคำถามว่าเรามีข้อมูลลูกค้าแต่ละรายหรือข้อมูลสินค้าแต่ละรายการมากพอที่จะมาทำการวิเคราะห์หรือไม่ ถ้ามีข้อมูลลูกค้าเพื่อเดือนละรายการมันเพียงพอไหม หรือควรจะต้องเห็นทุกวัน หรือต้องเห็นทุกชั่วโมง  หรือบางอย่างอาจมีข้อมูลทุกนาที ขึ้นอยู่กับธุรกิจและลักษณะงานแล้วเราถึงจะวิเคราะห์ข้อมูลได้

ธนชาติ นุ่มนนท์

IMC Institute

 

การอบรม Big Data และกิจกรรมด้านนี้ของ IMC Institute ในปี 2018

Screenshot 2018-01-16 11.10.07

IMC Institute เปิดการอบรมด้าน Emerging Technology ต่างๆทั้ง Cloud computing, Big data, Internet of things และ Blockchain มาเป็นเวลา 5 ปี ตลอดเวลาที่ผ่านมา IMC Institute ได้มีโอกาสอบรมคนทั้งหมด 14,882 คน/ครั้ง*(ผู้เข้าอบรมบางท่านอาจเข้าอบรมมากกว่าหนึ่งครั้ง) โดยแบ่งเป็นการอบรมที่เป็นหลักสูตรที่เปิดสอนทั่วไปจำนวน 308 ครั้งมีผู้เข้าอบรม 5,628  คน/ครั้ง หลักสูตรที่เป็น In-House ที่จัดให้หน่วยงานต่างๆจำนวน 195 ครั้งมีผู้เข้าอบรม 6,233  คน/ครั้ง และการอบรมแบบฟรีสัมมนาหรืองานฟรีต่างๆจำนวน 43 ครั้งมีผู้เข้าอบรม 3,021 คน/ครั้ง

ในการอบรมด้านเทคโนโลยี Big Data ทาง IMC Institute ได้เริ่มสอนหลักสูตรด้าน Hadoop ตั้งแต่เดือนมีนาคมปี 2013 และในปัจจุบันได้เปิดหลักสูตรออกมาในหลายๆหลักสูตรสำหรับหลายๆกลุ่ม ทั้งในระดับผู้บริหารอย่างหลักสูตร Big data for senior management หรือหลักสูตรสำหรับ Developer หรือ  Big Data Engineer อย่าง Big Data Architecture and Analytics Platform และ Big Data Analytics as a Service for Developer หรือ หลักสูตรสำหรับ Business Analyst อย่าง Business Intelligence Design and Process หรือ Data Visualisation Workshop รวมถึงหลักสูตรด้าน Data Science อย่าง Machine Learning for Data Science รงมถึงมีหลักสูตรที่ใช้เวลาเรียนทั้งหมด 120 ชั่วโมงอย่าง Big Data Certification Course ที่สอนไปแล้ว 6  รุ่นรวม 180 คน ซึ่งหลักสูตรด้าน Big Data ทั้งหมดของ IMC Institute แสเงไว้ดังรูป

Screenshot 2018-01-16 11.13.32

หากมองถึงจำนวนผู้เข้าอบรมหลักสูตรด้าน Big Data ทาง IMC Institute ได้จัดการอบรมไปทั้งสิ้น 182 ครั้ง แบ่งเป็นการอบรมทั่วไป 91 ครั้ง, การอบรม In-house 66 ครั้ง และงานฟรีสัมมนา/Hackaton 25 ครั้ง โดยมีผู้เข้าอบรมทั้งสิ้นรวม 5,943 คน/ครั้ง เป็นการอบรมทั่วไป 1,860 คน/ครั้ง, การอบรม In-house 2,045 คน/ครั้ง และงานฟรีสัมมนา/Hackaton 2,038 คน/ครั้ง

Screenshot 2018-01-16 11.33.35

ในช่วง 5 ปีที่ผ่านมาทาง IMC Institute ยังมีการอบรมให้กับอาจารย์ในสถาบันอุดมศึกษาลักษณะ Train the trainer หลักสูตรด้าน Big Data และ Machine Learning ปีละหนึ่งรุ่นๆละประมาณ 30 คน เพื่อให้อาจารย์นำเอาเนื้อหาและเอกสารต่างๆไปสอนกับนักศึกษาในสถาบัน โดยอบรมมาแล้ว 5 รุ่นจำนวนอาจารย์ที่มาเรียนกว่า 150 คน และเมื่อสองปีก่อนทาง IMC Institute ก็ได้จัดการอบรมในลักษณะ On the job training ให้กับนักศึกษาในมหาวิทยาลัยปี 3 และ 4 เป็นเวลาสองเดือนโดยไม่ได้คิดค่าใช้จ่ายใดๆกับนักศึกษาผู้เข้าอบรม ทาง IMC Institute ได้จัดไปแล้วสองรุ่นมีผู้ผ่านการอบรมจำนวน 26 คน ซึ่งนักศึกษาปีสี่ที่ผ่านการอบรมก็เข้าไปทำงานต่อด้าน Big Data กับบริษัทต่างๆจำนวนมากอาทิเช่น G-Able, Humanica หรือ PTG Energy

นอกจากนี้ทาง IMC Institute ก็ยังมีโครงการฟรีสัมมนาทางด้านนี้เป็นประจำทุกเดือนให้กับผู้ที่สนใจทั่วไปเข้าฟัง โดยมีหัวข้อต่างๆอาทิเช่น Big Data on Public Cloud หรือ AI Trend to Realistic cases รวมถึงการจัด Big Data Hackatonในช่วงวันเสาร์-อาทิตย์ที่ทำมาแล้ว 5 ครั้ง

สำหรับในปี 2018 ทาง IMC Institute ก็ยังเปิดหลักสูตรด้าน Big Data ต่างๆอยู่เป็นจำนวนมากและมีการปรับเนื้อหาให้ผู้เข้าอบรมสามารถเข้าไปทำงานได้จริงโดยใช้ Public cloud computing service และ Big data as a service ที่เป็นบริการบน public cloud ที่ทำให้องค์กรต่างๆสามารถเรื่มทำโครงการ Big Data ได้อย่างรวดเร็ว โดยผู้สนใจสามารถมาดูข้อมูลหลักสูตรต่างๆด้าน Big Data ได้ที่ >> Big Data Track

นอกจากนี้ยังมีโครงการอบรมต่างๆที่น่าสนใจดังนี้

  • Big Data Certification Course รุ่นที่ 7 ที่เป็นหลักสูตร 120 ชั่วโมง เรียนทุกวันพฤหัสบดีเย็นและวันเสาร์ โดยจะเปิดเรียนวันที่ 15 มีนาคม 2018
  • Big Data Hackathon  ครั้งที่ 6 โครงการฟรีให้กับบุคคลที่เคยผ่านหลักสูตรการอบรมแบบ Hands-on ของ IMC Institute โดยจะจัดเพื่อให้ผู้สนใจได้ฝึกการแก้ปัญหากับข้อมูลขนาดใหญ่โดยมีรางวัลเป็น Google Home Mini สำหรับทีมที่ชนะแกสมาชิกในทีมท่านละหนึ่ง โดยจะจัดขึ้นวันที่ 24-25 กุมภาพันธ์ 2018
  • Big Data School: On the job training รุ่นที่  3 เป็นโครงกาiฝึกงานนี้มีเป้าหมายเพื่อจะอบรมและสอนให้ผู้เข้าฝึกงานได้เรียนรู้เรื่อง Big Data Technology อย่างเข้มข้น จะทำให้ผู้เรียนมีทักษะที่จะเป็น Data Engineer, Data Analyst และสามารถต่อยอดเป็น Data Scientist ได้ ในการทำโครงการ Big Data จากการติดตั้ง Big Data Infrastructure จริง ๆ บนระบบ Cloud โดยเป็นโครงการอบรมฟรีจำนวนสองเดือนให้กับนักศึกษาปีที่ 4 หรือ 3 โดยจัดตั้งแต่วันที่ 30 พฤษภาคม – 26 กรกฎาคม 2018

หากท่านใดสนใจโครงการอบรมต่างๆเหล่านี้ก็สามารถติดต่อได้ที่ contact@imcinstitute.com หรือเบอร์มือถือ  088-192-7975, 087-593-7974

ธนชาติ นุ่มนนท์

IMC Institute

การทำโครงการ Big Data อย่างรวดเร็ว ควรเริ่มอย่างไร

25182135_982595078554499_4976486232400632025_o (1)

ช่วงนี้เวลาผมอ่านข่าวจากสื่อต่างๆก็จะเห็นผู้คนในทุกวงการออกมาพูดเรื่องการทำ Big Data เป็นจำนวนมาก มีการเขียนบทความ มีการออกข่าวต่างๆ กำหนดนโยบาย บ้างก็เข้าใจหลักการ บ้างก็พูดกันตามกระแส จนเหมือนกับว่า Big Data เป็นเครื่องมือวิเศษที่จะมาปรับเปลี่ยนองค์กรให้เข้าสู่การเปลี่ยนแปลงเชิงดิจิทัลได้โดยง่าย ทั้งๆที่การวิเคราะห์ข้อมูล Big Data มันซับซ้อนกว่านั้นและต้องมีการปรับเปลี่ยนโครงสร้างพื้นฐานด้านเทคโนโลยีสารสนเทศในองค์กรพอสมควร

ผมเองค่อนข้างจะโชคดีที่ยังเป็นคนลงมือปฎิบัติ ทำ Big Data Project เอง ศึกษาเอง มาเปิดและติดตั้งระบบอย่าง Hadoop  มาใช้  Cloud Services ต่างๆในการทำ Big Data Analytics ได้ลงมือทำ Machine Learning ตลอดจนศึกษาทฤษฎีทั้งในมุมมองของผู้บริหารและนักไอที เห็น Use Cases ในที่ต่างๆ และก็ได้เจอผู้คนมากมายในองค์กรต่างๆ พร้อมทั้งมีโอกาสได้ไปบรรยายและสอนเรื่องนี้ในหลายๆที่ ทั้งระดับบริหารและสอนคนลงมือปฎิบัติจริงจัง จึงพอที่จะบอกได้คร่าวๆบ้างว่า เราควรจะเริ่มต้นทำ  Big Data ได้อย่างไร ผมอยากจะสรุปประเด็นการเริ่มต้นทำโครงการ Big Data ที่สำคัญสามเรื่องดังนี้

1. การทำ Big Data  ควรเริ่มต้นทำกับข้อมูลประเภทใด

Big Data คือข้อมูลขนาดใหญ่มากๆทั้งที่เป็น  Structure และ unstructure ซึ่งผมมักจะได้ยินว่าเราควรเอา Big Data มาเพื่อวิเคราะห์พฤติกรรมลูกค้่า บ้างก็บอกว่าไปเอาข้อมูลใน Social Media มาเพื่อเข้าใจลูกค้าหรือแบรนด์เราเองมากขึ้น แต่จริงๆแล้วถ้าเราแบ่งข้อมูลที่จะนำมาใช้ เราอาจแบ่งได้เป็นสี่ประเภท

  • ข้อมูลที่มีอยู่แล้ว และได้ทำการวิเคราะห์แล้ว
  • ข้อมูลที่มีอยู่แล้ว แต่ไม่เคยนำมาวิเคราะห์ใดๆ
  • ข้อมูลที่ยังไม่เคยเก็บ แต่น่าจะมีประโยชน์
  • ข้อมูลจากคู่ค้าหรือแหล่งอื่นๆ

การเริ่มต้นทำ Big Data ที่ง่ายๆอาจพิจารณาที่ “ข้อมูลที่มีอยู่แล้ว แต่ไม่เคยนำมาวิเคราะห์ใดๆ” ก่อน เช่นข้อมูล Transaction การทำธุรกรรมต่างๆของลูกค้าที่จะเป็นข้อมูลรายละเอียด แต่เราไม่เคยนำมาวิเคราะห์ หรือรายการขายสินค้าในแต่ละรายการ เพราะโดยมากข้อมูลที่เราเคยวิเคราะห์แล้ว มักจะเป็นข้อมูลสรุปตัวเลข ยอดสินค้า ยอดขาย จำนวนลูกค้า แต่รายละเอียดย่อยๆเหล่านี้ จะเป็นข้อมูลขนาดใหญ่และอาจไม่เคยนำมาวิเคราะห์

2.การทำ Big Data  ต้องลงทุนโครงสร้างพื้นฐานมากน้อยเพียงใด

การวิเคราะห์ข้อมูลของ Big Data ที่ดีต้องมีการลงทุนโครงสร้างพื้นฐานที่แตกต่างจากการจัดทำฐานข้อมูลแบบเดิมๆหรือการทำโครงการ Data warehouse ซึ่งจะเป็นการลงทุนด้าน Data Lake ที่จะมาใช้ในการเก็บข้อมูลขนาดใหญ่ ดังแสดงรูปที่ 1 ซึ่งหลายๆองค์กรจะลงทุนไปกับเทคโนโลยีอย่าง Hadoop เพราะจะมีค่าใช้จ่ายในการเก็บ Storage ที่ค่อนข้างถูกกว่าเทคโนโลยีอื่นๆ ดังแสดงในรูปที่ 2  ที่อาจถูกกว่า Database เกือบ 20 เท่า แต่อย่างไรก็ตามการที่จะทำ Hadoop cluster ที่เป็นแบบ on-Promise ก็ยังมีค่าใช้จ่ายที่สูง อาทิเช่นการติดตั้ง Hadoop Servers  18 ตัวอาจมีค่าใช้จ่ายสูงถึง 30 ล้าน ดังแสดงในรูปที่  3

Screenshot 2017-11-24 13.23.02

รูปที่  1 การทำโครงการ Big Data Analytics โดยการทำ  Data Lake

Screenshot 2017-11-24 13.51.52

รูปที่  2 เปรียบเทียบค่าใช้จ่ายการทำ  Big Data Platform

ดังนั้นจึงไม่แปลกใจที่หน่วยงานจำนวนมากไม่สามารถที่จะลงทุนโครงสร้างพื้นฐานเรื่องของ  Big Data Platform ได้ เนื่องด้วยค่าใช้จ่ายที่สูง และอาจคำนวณหาผลตอบแทนในการลงทุนลำบาก รวมถึงอาจหา  Business case ค่อนข้างยาก ข้อสำคัญการลงทุน Hadoop อาจพบว่าส่วนใหญ่ก็คือการรวบรวมข้อมูลมาใส่ลงใน Data Lake  มากกว่าการใช้ CPU ในการประมวลผลผ่าน Processing Tools อย่าง  Hive, Spark, Impala เพราะนานๆครั้งจะทำการประมวลผลที่ และบางครั้งหากต้องการประมวลผลก็จะพบว่าความเร็วหรือจำนวน CPU ไม่พอ จึงอาจเกิดคำถามขึ้นมาว่าเราต้องลงทุนโครงสร้างพื้นฐานจำนวนหลายสิบล้านบาทเพียงเพียงเพื่อใช้ในการเก็บช้อมูลที่เป็น archieve จะคุ้มค่าหรือไม่

 

Screenshot 2017-11-24 13.52.01

รูปที่  3 ค่าใช้จ่ายการทำ  Hadoop Cluster จำนวน  18 เครื่อง [ข้อมูลจาก https://blogs.oracle.com%5D

แนวทางที่ดีสำหรับการลงทุนโครงการ Big Data คือการใช้บริการ Public Cloud ดังที่ผมเคยเขียนไว้ในบทความ “Big Data as a Service แนวทางการทำโครงการ Big Data ที่ไม่ต้องลงทุนโครงสร้างพื้นฐาน”  ทั้งนี้เราจะแยกส่วนการเก็บข้อมูลขนาดใหญ่ที่เป็น Data Lake ไว้ใน Cloud Storage อาทิเช่นการใช้ Google Cloud Storage, AWS S3 หรือ Microsoft Azure Blob มาแทนที่การใช้ Hadoop HDFS ซึ่งจะเป็นการประหยัดค่าใช้จ่ายกว่าการลงทุน Hadoop Cluster มากและก็มีความเสถียรของระบบที่ดีกว่า นอกจากองค์กรก็ยังลดค่าใช้จ่ายในการบริหารจัดการและดูแลระบบ ซึ่งจะถูกกว่าการลงทุน Hadoop Cluster หลายสิบเท่า โดยอาจมีค่าใช้จ่ายเพียงการเก็บข้อมูลเดือนหนึ่งหลักเพียงหมื่นบาทในการเก็บข้อมูลเป็น Terabyte ทั้งนี้ข้อมูลที่นำมาเก็บบน  Cloud storage ก็เป็นข้อมูลเช่นเดียวกับ Hadoop HDFS ที่เน้นข้อมูลที่เป็น  Archeive ซึ่งอาจเป็น Warm data หรือ Cold data และหากองค์กรกังวลเรื่องความปลอดภัยก็สามารถเข้ารหัสก่อนนำข้อมูลเหล่านี้ไปเก็บไว้บน Cloud

Screenshot 2017-11-24 13.22.42

รูปที่  4 เปรียบเทียบค่าใช้จ่ายการใช้ Cloud Storageกับ Hadoop HDFS

ในด้านการประมวลผล เราก็สามารถที่จะใช้จำนวน CPU ไม่จำกัดเพราะเราสามารถที่จะใช้บริการ Hadoop as a Services ที่มีค่าใช้จ่ายตามการใช้งานเช่นการใช้ Amazon EMR. Google DataProc หรือ  Microsoft HDInsight ซึ่งจะเสียค่าใช้จ่ายน้อยมากตามจำนวน CPU ที่ใช้ในการประมวลผล ซึ่งจากประสบการณ์ของผมที่ทำโครงการ Big Data Analytics ที่ทาง IMC Institute รับทำให้กับลูกค้านั้น บางครั้งเราเปิด Server ขนาด 4  vCPU  ถึงสามสิบเครื่อง เสียค่าใช้จ่ายเพียงหลักร้อยบาท ดังนั้นจะเห็นได้ว่าการลงทุนโครงการ Big Data โดยใช้ Cloud Computing ก็จะลงทุนเพียงเล็กน้อยและสามารถเริ่มทำงานได้ทันที

3.การทำ Big Data  ต้องจะพัฒนาคนเพียงใด

การวิเคราะห์ข้อมูล Big Data จะแตกต่างกับการทำโครงการ Data warehouse  ที่อาจเน้นการทำ Data Cleansing ซึ่งจะเน้นการใช้  SQL แต่การทำ Big Data จะต้องการ  Developer ที่สามารถพัฒนาโปรแกรมอย่างภาษา Python หรือ SQL ได้ ตลอกจนอาจต้องการ Data Sciencetist ที่มีความรู้ด้าน Machine Learning Algorithm ต่างๆ หากต้องการเห็นการทำ Big Data Analytics อย่างจริงจัง องค์กรจำเป็นต้องพัฒนาบุคลากรขึ้นมาเพื่อให้ใช้ Processing Tools ต่างๆอย่าง Apache Spark และควรมีความเข้าใจด้าน Machine Learning ซึ่งระยะต้นที่เป็นโจทย์วิเคราะห์ข้อที่หนึ่งหรือสอง เราอาจเรียนรู้โดยการว่าจ้าง Outsource มาทำแล้วทำงานร่วมกัน เพื่อเป็นการพัฒนาบุคลากรเพื่อแก้โจทย์ Big Data Analytics อื่นๆในอนาคต

ธนชาติ นุ่มนนท์

IMC Institute

Screenshot 2017-10-02 08.23.18

 

 

Big Data as a Service แนวทางการทำโครงการ Big Data ที่ไม่ต้องลงทุนโครงสร้างพื้นฐาน

Screenshot 2017-09-18 10.59.49

ช่วงหลายเดือนที่ผ่านมาผมเดินสายบรรยายเรื่อง Big Data Jumpstart  โดยแนะนำให้องค์กรต่างๆทำ  Big Data  as a Service ซึ่งเป็นการใช้ Cloud Services ของ Public cloud หลายใหญ่ต่างๆทั้ง  Google Cloud Platform, Microsoft Platform หรือ Amazon Web Services (AWS) ทำให้เราสามารถที่จะลดค่าใช้จ่ายได้มหาศาลโดยเฉพาะกับองค์กรขนาดกลางหรือขนาดเล็กที่ไม่มีงบประมาณหลายสิบล้านในการลงทุนโครงสร้างพื้นฐานด้าน Big Data

Screenshot 2017-10-02 08.27.19

รูปที่ 1 องค์ประกอบของเทคโนโลยีสำหรับการทำ Big Data

การลงทุนโครงสร้างพื้นฐานหรือการจัดหาเทคโนโลยีสำหรับโครงการ Big Data โดยมากจะมีการลงทุนอยู่สี่ด้านคือ 1) Data Collection/Ingestion สำหรับการนำข้อมูลเข้ามาเก็บ  2) Data Storage สำหรับการเก็บข้อมูลที่เป็นทั้ง structure และ unstructure 3) Data Analysis/Processing สำหรับการประมวลผลข้อมูลที่อยู่ใน data storage และ 4)  Data visualisation  สำหรับการแสดงผล

ปัญหาที่องค์กรต่างๆมักจะมีก็คือการจัดหาเทคโนโลยีด้าน Data storage ที่จะต้องสามารถเก็บ Big Data ซึ่งนอกจากจะมีขนาดใหญ่แลัวข้อมูลยังมีความหลากหลาย จึงต้องหาเทคโนโลยีราคาถูกอย่าง Apache Hadoop มาเก็บข้อมูล แต่การติดตั้งเทคโนโลยีเหล่านี้ก็มีค่าใช้จ่ายในการหาเครื่องคอมพิวเตอร์ Server จำนวนมากมาใช้ และค่าใช้จ่ายด้าน Hardware ก็ค่อนข้างสูงหลายล้านบาท บางทีเป็นสิบล้านหรือร้อยล้านบาท ซึ่งอาจไม่เหมาะกับองค์กรขนาดเล็ก หรือแม้แต่องค์กรขนาดใหญ่ก็มีคำถามที่จะต้องหา Use case ที่ดีเพื่อตอบเรื่องความคุ้มค่ากับการลงทุน (Returm of Investment) ให้ได้

ดังนั้นการทำโครงการ Big Data ไม่ควรจะเริ่มต้นจากการลงทุนเรื่องเทคโนโลยี ไม่ใช่เป็นการจัดหาระบบอย่างการทำ Apache Hadoop แต่ควรจะเป็นการเริ่มจากคิดเรื่องของธุรกิจเราต้องคิดเรื่องของ Business Transformation (Don’t thing technology, think business transformation) การทำโครงการ Big Data ควรเริ่มจากทีมด้านธุรกิจไม่ใช้หานักเทคโนโลยีมาแนะนำการติดตั้งระบบหรือลง Hadoop หรือหานักวิทยาศาสตร์ข้อมูลมาทำงานทันที เพราะหากฝ่ายบริหารหรือฝ่ายธุรกิจมีกลยุทธ์ด้าน Big Data เข้าใจประโยชน์ของการทำ Big Data ได้ เราสามารถเริ่มต้นโครงการ Big Data ได้อย่างง่าย โดยใช้ประโยชน์จากบริการ Big Data as a Service บน Public cloud ซึ่งทำให้องค์กรไม่ต้องเสียค่าใช้จ่ายเริ่มต้นในราคาแพง ที่อาจไม่คุ้มค่ากับการลงทุน

เทคโนโลยีในการทำ Big Data  ต่างๆเช่น Big data storage (อย่าง Hadoop HDFS) เราสามารถใช้ Cloud Storage  อย่าง Amazon S3, Google Cloud Storage หรือ Azure Blob เข้ามาแทนที่ได้ โดยบริการเหล่านี้ค่าใช้จ่ายในการใช้จ่ายในการใช้งานจะต่ำกว่าการติดตั้ง Hadoop มาใช้งานเป็นสิบหรือร้อยเท่า แม้อาจมีข้อเสียเรื่องเวลาในการ Transfer ข้อมูลจาก site ของเราขึ้น Public Cloud แต่หากมีการวางแผนที่ดีแล้วสามารถทำงานได้อย่างมีประสิทธิภาพ เช่นเดียวกับเรื่องความปลอดภัยของข้อมูบบน Public cloud หากมีการพิจารณาการใช้ข้อมูลที่เหมาะสมหรือการเข้ารหัสข้อมูลก็จะตัดปัญหาเรื่องเหล่านี้ไปได้

เช่นเดียวกันในการประมวลผลเราสามารถใช้บริการบน Public cloud ที่ใช้ระบบประมวลผลอย่าง Hadoop as a service เช่น DataProc บน Google Cloud Platform, HDInsight ของ Microsoft Azure หรือ EMR ของ AWS ซึ่งมีค่าใช้จ่ายตามระยะเวลาการใช้งาน  (pay-as-you-go) ซึ่งเราไม่จำเป็นต้องเปิดระบบตลอด และมีค่าใช้จ่ายที่ต่ำมาก รวมถึงการใช้บริการอื่นๆอย่าง Machine Learning as a Service บน public cloud  ที่มีความสามารถที่ค่อนข้างสูง ทำให้เราสามารถทำงานได้อย่างมีประสิทธิภาพ

แม้แต่การทำ Data Visualisation เราก็สามารถที่จะใช้เครื่องมือบน public cloud ที่จัดเป็น Big Data Software as a Service อย่างเช่น Google Data Studio 360, PowerBI บน Microsoft Azure หรือ Quicksight ของ AWS ได้ ซึ่งรูปที่ 2 ก็แสดงสรุปให้เห็นบริการ Cloud Service เหล่านี้ บน public cloud platform ต่างๆ

Screenshot 2017-10-02 12.09.47

รูปที่ 2 Tradition Big Data Technology เทียบกับ Big Data as a Service ต่าง

ซึ่งการทำโครงการ Big Data โดยใช้ public cloud เหล่านี้สามารถที่จะเริ่มทำได้เลย ไม่ได้มีค่าใช้จ่ายเริ่มต้น และค่าใช้จ่ายที่ตามมาก็เป็นค่าบริการต่อการใช้งาน ซึ่งค่าบริการที่อาหมดไปหลักๆก็จะเป็นค่า Cloud Storage  ที่อาจเสียประมาณเดือนละไม่ถึงพันบามต่อ Terabyte และหากเราต้องการเปลี่ยนแปลงหรือยกเลิกบริการเหล่านี้ก็สามารถใช้ได้ทันที ซึ่งวิธีการตัดสินใจที่จะทำโครงการ Big Data เหล่านี้ก็จะไม่ได้เน้นเรื่องของความคุ้มค่ากับการลงทุนมากนัก เพราะค่าใช้จ่ายเริ่มต้นต่ำมาก แต่มันจะกลายเป็นว่า เราจะทำโครงการอะไรที่ให้ประโยชน์กับธุรกิจมากสุด และเมื่อเริ่มทำลงทุนเรื่มต้นเล็กน้อยก็จะเห็นผลทันทีว่าคุ้มค่าหรือไม่

กล่าวโดยสรุป วันนี้เราสามารถเริ่มทำโครงการ  Big Data ได้เลยโดยเริ่มที่โจทย์ทางธุรกิจ คุยกับฝั่งธุรกิจ ไม่ใช่เริ่มที่เทคโนโลยี

ธนชาติ นุ่มนนท์

IMC Institute

ระดับการวัดความสามารถในการนำ Big Data ไปใช้ในองค์กร

Screenshot 2017-10-06 17.30.17

ผมเห็นว่าวันนี้ทุกคนต่างก็พูดเรื่อง Big Data ตั้งแต่คนไอทีไปจนถึงนายกรัฐมนตรี ต่างก็บอกว่าจะเอา Big Data  มาใช้ในองค์กร บ้างก็บอกว่าทำแล้วบ้างก็บอกว่ากำลังทำ บางคนทำรายงานอะไรเล็กน้อยก็บอกว่าทำ Big Data อยู่ ซึ่งผมก็ไม่แน่ใจว่าแต่ละคนเข้าใจความหมายของ Big Data แค่ไหน แต่ไม่ว่าจะมองนิยาม  Big Data อย่างไรก็ตามผมมองว่า Big Data มีเป้าหมายสำหรับองค์กรในสามประเด็นดังนี้

  1. การนำข้อมูลขนาดใหญ่มาช่วยในการตัดสินใจได้ดีขึ้น เช่นสามารถตอบได้ว่าเราควรจะทำอะไร นำสินค้าใดมาขาย ลูกค้าเราอยู่ที่ใด จะใช้จ่ายงบประมาณอย่างไร
  2. การนำข้อมูลขนาดใหญ่มาช่วยให้การทำงานดีขึ้น เช่นทราบข้อมูลโดยทันทีว่าลูกค้าต้องการอะไร ทราบตำแหน่งของลูกค้าเป้าหมาย หรือช่วยเพิ่มยอดขาย จะใช้งบประมาณให้มีประสิทธิภาพอย่างไร
  3. การทำให้ข้อมูลเป็นทรัพย์สินขององค์กร และทำให้เกิด Business Transformation เช่นการนำข้อมูลที่มีอยู่ไปต่อยอดร่วมกับคู่ค้ารายอื่นๆเพื่อสร้างสินค้าใหม่ๆ

การทำ  Big Data ไม่ใข่แค่เรื่องของการทำ  Data Cleansing, Data Warehouse, Business Intelligence หรื่อเรื่องของเทคโนโลยี องค์กรที่จะทำ Big Data อาจต้องเปลี่ยนทัศนคติในรูปแบบเดิมๆอยู่หลายเรื่อง ซึ่งผมมักจะยกคำพูดสั้นมา 3-4  ประโยคเกี่ยวกับ Big Data  ดังนี้

  • Don’t think technology, think business transformation.
  • Don’t think data warehouse, think data lake.
  • Don’t think business intelligence, think data science.
  • Don’t think “what happened”, think “what will happen”.

สุดท้ายต้องทำความเข้าใจเรื่องระดับความสามารถของการนำ Big Data ไปใช้ในองค์กร (Big Data Matuarity Model)  ว่ามีอยู่ 5 ระดับดังรูปนี้ ซึ่งจะบอกได้ว่าองค์กรของเราอยู่ในระดับใด

Screenshot 2017-09-01 11.46.57

รูปที่ 1 Big Data Business Model Maturity Index, จาก Big Data MBA, Bernard Marr

  1. Business Monitoring ในขั้นตอนนี้องค์กรยังเพียงแค่ทำ Business Intelligence หรือยังทำ Data Warehouse ซึ่งเป็นขั้นตอนที่เราจะแสดงข้อมูลหรือทำรายงานต่างๆขององค์กรในลักษณะของ Descriptive Analytic ที่เราจะดูข้อมูลในอดีตเพื่อให้ทราบว่า What happened?
  2. Business Insights  ในขั้นตอนนี้จะเป็นการเริ่มต้นทำ Big Data Project ที่มีการทำ  Data Lake เพื่อรวบรวมข้อมูลจากทั้งภายในและภายนอกองค์กรทั้งข้อมูลที่เป็น structure, unstructure  หรือ semi-structure เพื่อทำ Predictive Analytic  เพื่อให้ทราบว่า What will happen?
  3. Business Optimization ในขั้นตอนนี้จะเริ่มเห็นความคุ้มค่าของการลงทุนทำ Big Data Project โดยจะเป็นการทำ Prescriptive Analytic เพื่อให้ทราบว่า How should we make in happen?
  4. Data Monetization ในขั้นตอนนี้จะเป็นการขยายผลเพื่อนำ Data ที่จะเป็นทรัพยากรขององค์กรไปใช้เป็นสินทรัพย์ในการทำงานร่วมกับคู่ค้าหรือองค์กรอื่นๆ
  5. Business Metamorphosis ในขั้นตอนนี้จะเป็นขั้นสูงสุดของการทำ Big Data ที่จะเห็นเรื่องของ Business Transformation  ในองค์กรซึ่งอาจเห็นรูปแบบการทำงานใหม่ๆ ธุรกิจใหม่ หรื่อผลิตภัณฑ์ใหม่ๆขององค์กร

จากที่กล่าวมาทั้งหมดนี้จะเห็นได้ว่า การทำ Big Data Project  ไม่ใช่เรื่องง่ายๆอย่างที่เข้าใจ จำเป็นต้องปรับวิธีคิดในองค์กรอย่างมาก และต้องเข้าใจเป้าหมายและระดับขั้นของการทำ Big Data ในองค์กร

ธนชาติ นุ่มนนท์

IMC Institute

Hortonworks เทียบกับ Hadoop Distribution อื่นๆ

Screenshot 2017-04-16 09.21.09

ช่วงสองสัปดาห์ที่ผ่านมา ผมให้ทีมนักศึกษาฝึกงานของ IMC Institute  ในโครงการ Big Data School  ได้ทดลองติดตั้งและเปรียบเทียบ Hadoop Distribution ต่างๆ ซึ่งผมได้เคยเขียนเรื่อง การติดตั้ง Hadoop Distributions  พร้อมทั้งวิธีการติดตั้งไว้แล้ว ในบทความ “Big Data School กับการติดตั้ง Hadoop Distributions” ซึ่งในการเปรียบเทียบDistribution ต่างๆ ผมให้นักศึกษาทดลองติดตั้งสองแบบคือ

  • การติดตั้ง  Hadoop Cluster 4-5  เครื่องบน Amazon EC2 หรือ Microsoft Azure สำหรับที่จะใช้เป็น Production
  • การใช้ Hadoop Sandbox บนเครื่อง Server หรือเครื่อง PC หนึ่งเครื่อง สำหรับที่จะใช้เป็นเครื่องทดลองหรือทำ Development

ซึ่งนักศึกษาก็ได้แบ่งกลุ่มกันทำ  Hadoop Distribution  4 ชุดคือ

Screenshot 2016-06-28 12.20.25

และผมได้ให้พวกเขาสรุปเปรียบเทียบในประเด็นต่างๆเช่น ราคา, ความยากง่ายในการใช้งาน, ความยากง่ายในการติดตั้ง, Opensource Compatibity, คู่มือเอกสารต่างๆและชุมชน, การสนับสนุนจากผู้ผลิต  ซึ่งพอสรุปประเด็นต่างๆได้ดังนี้

  • ราคา: ในแง่ราคา Apache Hadoop เป็นฟรีซอฟต์แวร์แต่ก็ไม่มี support ใดๆ ซึ่งถ้าเปรียบเทียบกรณีนี้ Hortonworks จะดีสุดเพราะฟรีเช่นกันยกเว้นต้องการซื้อ  support ขณะที่ Cloudera จะหรีเฉพาะ  Express Version และ MapR จะฟรีเฉพาะเวอร์ชั่น M3  ซึ่งทั้งสองเวอร์ชั่นไม่ใช่ Full Feature ที่ทั้งสองรายมีให้
  • ความง่ายในการติดตั้ง Cluster: เมื่อพิจารณาจากประเด็นนี้  Cloudera จะติดตั้งง่ายสุดโดยผ่าน Cloudera Manager แต่จริงๆแล้วการติดตั้ง Hortonworks ก็ไม่ยากเกินไปถ้าติดตั้งผ่าน Public Cloud หรือ  Private Cloud ที่เป็น Openstack  โดยใช้ Cloudbreak ส่วน Apache Hadoop ติดตั้งค่อนข้างยากแต่อาจใช้ Ambari ได้
  • ความง่ายในการใช้งาน: Cloudera และ MapR  จะมีส่วนติดต่อผู้ใช้ที่เป็น Hue ที่ค่อนข้างง่ายต่อการใช้งาน ส่วนของ Hortonworks ใช้ Ambari ที่มี Feature เพียงบางส่วน ส่วนของ Apache Hadoop จะต้องติดตั้ง Hue เองซึ่งค่อนข้างยาก
  • Opensource Compatibility: กรณีนี้ Hortonworks จะดีกว่ารายอื่นมากเพราะจะสอดคล้องกับ Apache Hadoop ที่เป็น Opensource ขณะที่ Cloudera จะเป็น Vendor Lockin หลายตัว อาทิเช่น Cloudera Manager หรือ Impala เช่นเดียวกับ MapR ที่ Lockin ตั้งแต่ MapR-FS และ MapR Streaming
  • Sandbox: ถ้าต้องการหาตัวทดลองเล่น Cloudera มีจุดเด่นที่มี Docker Image ให้เลยสามารถเล่นกับเครื่องใดก็ได้ ขณะที่ Hortonworks จะเน้นให้เล่นกับ VMware/VirtualBox หรือจะรันผ่าน Microsoft Azure เท่านั้น ส่วน distributation อื่นๆ (MapR, Apache Hadoop) ก็ไม่มี Official Docker Image  เช่นกัน
  • คู่มือเอกสารต่างๆและ Community:  ในแง่นี้ทั้งสามรายที่เป็น  Commercial Distribution ต่างก็มีเอกสารพอๆกัน แต่ถ้าพูดถึง Community เราอาจเห็นจำนวนคนที่จะแชร์ข้อมูล Cloudera มากกว่า Hortonworks แต่ทั้งนี้เราสามารถใช้ Community กลุ่มเดียวกับ Pure Apache Hadoop เพราะ Hortonworks จะมีความ Opensource Compatibity ค่อนข้างสูงแต่สองรายใหญ่ต่างก็มีงานประจำปีหลายที่คือ Hadoop Summit ของ Hortonworks และ Hadoop World ของ  Cloudera ส่วน MapR จำนวน  Community น้อยสุด
  •  การสนับสนุนจากผู้ผลิต: ถ้ามองในแง่ประเทศไทย การสนับสนุนจากผู้ผลิตของ Cloudera ยังนำรายอื่นๆอยู่มาก ทำให้หน่วยงานในประเทศไทยรายแห่งสนใจใช้ Cloudera

ทั้งนี้เมื่อพิจารณาโดยรวมแล้ว เราสรุปกันว่า ถ้าจะทำ Product ที่มีราคาถูกสุดและสอดคล้องกับ Pure Apache Hadoop มากที่สุดควรเลือกใช้ Hortonworks ทั้งนี้เพราะ  Commercial Distribution จะมีค่าใช้จ่ายในแง่ License หรือ Subscribtion แต่ถ้ามีงบประมาณค่อนข้างเยอะก็อาจเลือกใช้ได้ แต่ไม่ควรใช้ Free Version ของสองรายดังกล่าว (Cloudera และ  MapR) ทั้งนี้เนื่องจากไม่ใช่ Full Features และบางอย่างขาดความเสถียร

แต่ถ้าต้องการทดลองหรือใช้เพื่อทำ Development โดยผ่าน Hadoop Sandbox ก็จะแนะนำให้ใช้  Cloudera Quickstart ซึ่งผมเองก็ใช้ตัวนี้ในการอบรม ดังตัวอย่างเอกสารอบรมของผมดังนี้ >> Big data processing using Cloudera Quickstart

สุดท้ายผมมี  Slide ทีนักฝึกงานของ IMC Institute ได้ทำขึ้นเพื่อเปรียบเทียบ Hadoop Distribution ต่างๆดังนี้

 

ธนชาติ นุ่มมนท์

IMC Institute