การวิเคราะห์พฤติกรรมลูกค้าควรมีข้อมูลธุรกรรมขนาดใหญ่ของลูกค้าแต่ละราย

Screenshot 2018-08-05 11.29.12

วันก่อนไปที่ร้านขายเฟอร์นิเจอร์แห่งหนึ่งเพราะอยากซื้อ ตู้โชว์แบบเดียวกับที่เคยซื้อเมื่อ 6-7 ปีก่อน เพิ่มอีกซักหนึ่งชุด แต่พอไปถึงหารุ่นนั้นไม่เจอ ก็เลยขอพนักงานดูประวัติการซื้อย้อนหลัง เพราะอยากทราบว่าตอนนั้นซื้อรุ่นไหน สิ่งที่น่าสนใจคือร้านนี้เก็บช้อมูลลูกค้าไว้ทุกรายการที่เราซื้อ รวมถึงวัสดุทุกชิ้น แต่พอเกิน 5 ปีก็ไม่มีข้อมูลแล้ว ซึ่งก็พอเข้าใจได้ว่าข้อมูลเก่าไปและต้องการประหยัดพื้นที่เก็บข้อมูล ก็เลยลบข้อมูลเก่าทิ้งไป ผมว่าที่ร้านมีข้อมูล Big Data ของลูกค้าที่น่าสนใจ เพราะเขาเก็บข้อมูลธุรกรรมการซื้อของลูกค้าไว้ทุกรายการ และเขาทราบข้อมูลที่อยู่ของลูกค้าและเบอร์ติดต่อชัดเจน คำถามที่ผมสนใจก็คือว่าจากข้อมูลที่เขามีอยู่ เขาสามารถที่จะวิเคราะห์พฤติกรรมลูกค้าได้ไหม การเก็บข้อมูลธุรกรรมของลูกค้าไว้เพียง 5 ปีเพียงพอจะวิเคราะห์ข้อมูลลูกค้าเป็นรายบุคคลได้ดีแค่ไหน ลูกค้าแต่ละรายจะมาซื้อเฟอร์นิเจอร์และอุปกรณ์ต่างๆบ่อยแต่ไหนในแต่ละปี

แต่อย่างไรก็ตามสิ่งหนึ่งที่น่าสนใจของร้านนี้คือ เขามีกลยุทธ์ที่ดีในการจะทำ Big data โดยสามารถที่จะให้ลูกค้ามาสมัครเป็นสมาชิก ใส่รายละเอียดที่อยู่ได้ และสามารถเก็บธุรกรรมของลูกค้าได้ อย่างที่ผมเคยบอกไว้ว่าถ้าเราจะทำ Big Data เราควรจะต้องเน้นที่ข้อมูลธุรกรรม (ดูรายละเอียดได้ที่ Big data ต้องเริ่มต้นจากการวิเคราะห์ Transactional data ไม่ใช่เล่นกับ summary data) ซึ่งถ้าได้ข้อมูลเหล่านี้มาก็จะทำให้เราวิเคราะห์ข้อมูลพฤติกรรมลูกค้าได้ดีขึ้น ยิ่งมีจำนวนธุรกรรมของลูกค้าแต่ละรายมากเท่าไรก็ยิ่งดีขึ้น

หากเราพิจารณาข้อมูลที่เป็น Big Data เราอาจเห็นข้อมูลใหญ่ๆอยู่สี่ประเภทคือ

  • Social media data
  • Mobile data
  • Internet of things data
  • Transactional data

ซึ่งจะเห็นได้ว่าข้อมูลที่จะเกี่ยวข้องกับพฤติกรรมลูกค้าที่ธุรกิจต่างๆมักจะมีก็คือข้อมูลธุรกรรมต่างๆที่ลูกค้ามาทำกับธุรกิจเช่น การซื้อสินค้า การติดต่อสื่อสาร เพราะข้อมูล Social media หรือ ข้อมูล Mobile โดยมากมักจะเป็นข้อมูลภายนอกองค์กรธุรกิจ ส่วนข้อมูล IoT ก็จำเป็นจะต้องมีการติดตั้งอุปกรณ์ต่างๆ

1a-transactional-data

แต่ความท้าทายของธุรกิจที่จะมีข้อมูลธุรกรรมเหล่านี้ก็คือกลยุทธ์ในการเก็บข้อมูล บางธุรกิจมีการทำธุรกรรมขายให้กับลูกค้าจำนวนมาก แต่ก็อาจไม่ทราบว่าลูกค้าคือใครเช่น ธุรกิจค้าปลีกต่างๆ ซึ่งบางทีฝ่ายการตลาดก็ต้องพยายามจูงใจให้ลูกค้าสมัครเป็นสมาชิกเพื่อทราบข้อมูลของลูกค้าเป็นรายคน บางธุรกิจลูกค้าก็อาจไม่ได้มาทำธุรกรรมบ่อยนักเช่นประกันภัยรถยนต์ ถ้าจะได้ข้อมูลขนาดใหญ่ก็อาจต้องใช้เทคโนโลยีอย่าง IoT หรือข้อมูล  Mobile มาช่วย ซึ่งในปัจจุบันเราจะเห็นว่าธุรกิจที่มีข้อมูลธุรกรรมลูกค้าแต่ละรายจำนวนมากก็อาจมีกลุ่มต่างๆดังนี้

  • ผู้ให้บริการโทรศัพท์เคลื่อนที่
  • ธนาคาร
  • บริษัทหลักทระพย์
  • ธุรกิจด้านการชำระเงินออนไลน์เข่น  Mobile Payment
  • ธุรกิจค้าปลีกที่ลูกค้าลงทะเบียนข้อมูลบุคคลไว้
  • โรงพยาบาล

ดังนั้นจะเห็นได้ว่าความยากของการทำ Big data ประเด็นหนึ่งก็คือข้อมูลที่ธุรกิจส่วนใหญ่มักจะมีข้อมูลลูกค้าแต่ละรายเป็นจำนวนจำกัด ทำให้ไม่สามารถจะวิเคราะห์ข้อมูลพฤติกรรมลูกค้าได้ ดังนั้นจำเป็นอย่างยิ่งที่ธุรกิจจะต้องร่วมกันวางกลยุทธ์เพื่อให้ได้ข้อมูลเหล่านั้นมา

ธนชาติ นุ่มนนท์

IMC Institute

 

Big Data as a Service แนวทางการทำโครงการ Big Data ที่ไม่ต้องลงทุนโครงสร้างพื้นฐาน

Screenshot 2017-09-18 10.59.49

ช่วงหลายเดือนที่ผ่านมาผมเดินสายบรรยายเรื่อง Big Data Jumpstart  โดยแนะนำให้องค์กรต่างๆทำ  Big Data  as a Service ซึ่งเป็นการใช้ Cloud Services ของ Public cloud หลายใหญ่ต่างๆทั้ง  Google Cloud Platform, Microsoft Platform หรือ Amazon Web Services (AWS) ทำให้เราสามารถที่จะลดค่าใช้จ่ายได้มหาศาลโดยเฉพาะกับองค์กรขนาดกลางหรือขนาดเล็กที่ไม่มีงบประมาณหลายสิบล้านในการลงทุนโครงสร้างพื้นฐานด้าน Big Data

Screenshot 2017-10-02 08.27.19

รูปที่ 1 องค์ประกอบของเทคโนโลยีสำหรับการทำ Big Data

การลงทุนโครงสร้างพื้นฐานหรือการจัดหาเทคโนโลยีสำหรับโครงการ Big Data โดยมากจะมีการลงทุนอยู่สี่ด้านคือ 1) Data Collection/Ingestion สำหรับการนำข้อมูลเข้ามาเก็บ  2) Data Storage สำหรับการเก็บข้อมูลที่เป็นทั้ง structure และ unstructure 3) Data Analysis/Processing สำหรับการประมวลผลข้อมูลที่อยู่ใน data storage และ 4)  Data visualisation  สำหรับการแสดงผล

ปัญหาที่องค์กรต่างๆมักจะมีก็คือการจัดหาเทคโนโลยีด้าน Data storage ที่จะต้องสามารถเก็บ Big Data ซึ่งนอกจากจะมีขนาดใหญ่แลัวข้อมูลยังมีความหลากหลาย จึงต้องหาเทคโนโลยีราคาถูกอย่าง Apache Hadoop มาเก็บข้อมูล แต่การติดตั้งเทคโนโลยีเหล่านี้ก็มีค่าใช้จ่ายในการหาเครื่องคอมพิวเตอร์ Server จำนวนมากมาใช้ และค่าใช้จ่ายด้าน Hardware ก็ค่อนข้างสูงหลายล้านบาท บางทีเป็นสิบล้านหรือร้อยล้านบาท ซึ่งอาจไม่เหมาะกับองค์กรขนาดเล็ก หรือแม้แต่องค์กรขนาดใหญ่ก็มีคำถามที่จะต้องหา Use case ที่ดีเพื่อตอบเรื่องความคุ้มค่ากับการลงทุน (Returm of Investment) ให้ได้

ดังนั้นการทำโครงการ Big Data ไม่ควรจะเริ่มต้นจากการลงทุนเรื่องเทคโนโลยี ไม่ใช่เป็นการจัดหาระบบอย่างการทำ Apache Hadoop แต่ควรจะเป็นการเริ่มจากคิดเรื่องของธุรกิจเราต้องคิดเรื่องของ Business Transformation (Don’t thing technology, think business transformation) การทำโครงการ Big Data ควรเริ่มจากทีมด้านธุรกิจไม่ใช้หานักเทคโนโลยีมาแนะนำการติดตั้งระบบหรือลง Hadoop หรือหานักวิทยาศาสตร์ข้อมูลมาทำงานทันที เพราะหากฝ่ายบริหารหรือฝ่ายธุรกิจมีกลยุทธ์ด้าน Big Data เข้าใจประโยชน์ของการทำ Big Data ได้ เราสามารถเริ่มต้นโครงการ Big Data ได้อย่างง่าย โดยใช้ประโยชน์จากบริการ Big Data as a Service บน Public cloud ซึ่งทำให้องค์กรไม่ต้องเสียค่าใช้จ่ายเริ่มต้นในราคาแพง ที่อาจไม่คุ้มค่ากับการลงทุน

เทคโนโลยีในการทำ Big Data  ต่างๆเช่น Big data storage (อย่าง Hadoop HDFS) เราสามารถใช้ Cloud Storage  อย่าง Amazon S3, Google Cloud Storage หรือ Azure Blob เข้ามาแทนที่ได้ โดยบริการเหล่านี้ค่าใช้จ่ายในการใช้จ่ายในการใช้งานจะต่ำกว่าการติดตั้ง Hadoop มาใช้งานเป็นสิบหรือร้อยเท่า แม้อาจมีข้อเสียเรื่องเวลาในการ Transfer ข้อมูลจาก site ของเราขึ้น Public Cloud แต่หากมีการวางแผนที่ดีแล้วสามารถทำงานได้อย่างมีประสิทธิภาพ เช่นเดียวกับเรื่องความปลอดภัยของข้อมูบบน Public cloud หากมีการพิจารณาการใช้ข้อมูลที่เหมาะสมหรือการเข้ารหัสข้อมูลก็จะตัดปัญหาเรื่องเหล่านี้ไปได้

เช่นเดียวกันในการประมวลผลเราสามารถใช้บริการบน Public cloud ที่ใช้ระบบประมวลผลอย่าง Hadoop as a service เช่น DataProc บน Google Cloud Platform, HDInsight ของ Microsoft Azure หรือ EMR ของ AWS ซึ่งมีค่าใช้จ่ายตามระยะเวลาการใช้งาน  (pay-as-you-go) ซึ่งเราไม่จำเป็นต้องเปิดระบบตลอด และมีค่าใช้จ่ายที่ต่ำมาก รวมถึงการใช้บริการอื่นๆอย่าง Machine Learning as a Service บน public cloud  ที่มีความสามารถที่ค่อนข้างสูง ทำให้เราสามารถทำงานได้อย่างมีประสิทธิภาพ

แม้แต่การทำ Data Visualisation เราก็สามารถที่จะใช้เครื่องมือบน public cloud ที่จัดเป็น Big Data Software as a Service อย่างเช่น Google Data Studio 360, PowerBI บน Microsoft Azure หรือ Quicksight ของ AWS ได้ ซึ่งรูปที่ 2 ก็แสดงสรุปให้เห็นบริการ Cloud Service เหล่านี้ บน public cloud platform ต่างๆ

Screenshot 2017-10-02 12.09.47

รูปที่ 2 Tradition Big Data Technology เทียบกับ Big Data as a Service ต่าง

ซึ่งการทำโครงการ Big Data โดยใช้ public cloud เหล่านี้สามารถที่จะเริ่มทำได้เลย ไม่ได้มีค่าใช้จ่ายเริ่มต้น และค่าใช้จ่ายที่ตามมาก็เป็นค่าบริการต่อการใช้งาน ซึ่งค่าบริการที่อาหมดไปหลักๆก็จะเป็นค่า Cloud Storage  ที่อาจเสียประมาณเดือนละไม่ถึงพันบามต่อ Terabyte และหากเราต้องการเปลี่ยนแปลงหรือยกเลิกบริการเหล่านี้ก็สามารถใช้ได้ทันที ซึ่งวิธีการตัดสินใจที่จะทำโครงการ Big Data เหล่านี้ก็จะไม่ได้เน้นเรื่องของความคุ้มค่ากับการลงทุนมากนัก เพราะค่าใช้จ่ายเริ่มต้นต่ำมาก แต่มันจะกลายเป็นว่า เราจะทำโครงการอะไรที่ให้ประโยชน์กับธุรกิจมากสุด และเมื่อเริ่มทำลงทุนเรื่มต้นเล็กน้อยก็จะเห็นผลทันทีว่าคุ้มค่าหรือไม่

กล่าวโดยสรุป วันนี้เราสามารถเริ่มทำโครงการ  Big Data ได้เลยโดยเริ่มที่โจทย์ทางธุรกิจ คุยกับฝั่งธุรกิจ ไม่ใช่เริ่มที่เทคโนโลยี

ธนชาติ นุ่มนนท์

IMC Institute

ตุลาคม 2560

ระดับการวัดความสามารถในการนำ Big Data ไปใช้ในองค์กร

 

ผมเห็นว่าวันนี้ทุกคนต่างก็พูดเรื่อง Big Data ตั้งแต่คนไอทีไปจนถึงนายกรัฐมนตรี ต่างก็บอกว่าจะเอา Big Data  มาใช้ในองค์กร บ้างก็บอกว่าทำแล้วบ้างก็บอกว่ากำลังทำ บางคนทำรายงานอะไรเล็กน้อยก็บอกว่าทำ Big Data อยู่ ซึ่งผมก็ไม่แน่ใจว่าแต่ละคนเข้าใจความหมายของ Big Data แค่ไหน แต่ไม่ว่าจะมองนิยาม  Big Data อย่างไรก็ตามผมมองว่า Big Data มีเป้าหมายสำหรับองค์กรในสามประเด็นดังนี้

  1. การนำข้อมูลขนาดใหญ่มาช่วยในการตัดสินใจได้ดีขึ้น เช่นสามารถตอบได้ว่าเราควรจะทำอะไร นำสินค้าใดมาขาย ลูกค้าเราอยู่ที่ใด จะใช้จ่ายงบประมาณอย่างไร
  2. การนำข้อมูลขนาดใหญ่มาช่วยให้การทำงานดีขึ้น เช่นทราบข้อมูลโดยทันทีว่าลูกค้าต้องการอะไร ทราบตำแหน่งของลูกค้าเป้าหมาย หรือช่วยเพิ่มยอดขาย จะใช้งบประมาณให้มีประสิทธิภาพอย่างไร
  3. การทำให้ข้อมูลเป็นทรัพย์สินขององค์กร และทำให้เกิด Business Transformation เช่นการนำข้อมูลที่มีอยู่ไปต่อยอดร่วมกับคู่ค้ารายอื่นๆเพื่อสร้างสินค้าใหม่ๆ

การทำ  Big Data ไม่ใข่แค่เรื่องของการทำ  Data Cleansing, Data Warehouse, Business Intelligence หรื่อเรื่องของเทคโนโลยี องค์กรที่จะทำ Big Data อาจต้องเปลี่ยนทัศนคติในรูปแบบเดิมๆอยู่หลายเรื่อง ซึ่งผมมักจะยกคำพูดสั้นมา 3-4  ประโยคเกี่ยวกับ Big Data  ดังนี้

  • Don’t think technology, think business transformation.
  • Don’t think data warehouse, think data lake.
  • Don’t think business intelligence, think data science.
  • Don’t think “what happened”, think “what will happen”.

สุดท้ายต้องทำความเข้าใจเรื่องระดับความสามารถของการนำ Big Data ไปใช้ในองค์กร (Big Data Matuarity Model)  ว่ามีอยู่ 5 ระดับดังรูปนี้ ซึ่งจะบอกได้ว่าองค์กรของเราอยู่ในระดับใด

Screenshot 2017-09-01 11.46.57

รูปที่ 1 Big Data Business Model Maturity Index, จาก Big Data MBA, Bernard Marr

  1. Business Monitoring ในขั้นตอนนี้องค์กรยังเพียงแค่ทำ Business Intelligence หรือยังทำ Data Warehouse ซึ่งเป็นขั้นตอนที่เราจะแสดงข้อมูลหรือทำรายงานต่างๆขององค์กรในลักษณะของ Descriptive Analytic ที่เราจะดูข้อมูลในอดีตเพื่อให้ทราบว่า What happened?
  2. Business Insights  ในขั้นตอนนี้จะเป็นการเริ่มต้นทำ Big Data Project ที่มีการทำ  Data Lake เพื่อรวบรวมข้อมูลจากทั้งภายในและภายนอกองค์กรทั้งข้อมูลที่เป็น structure, unstructure  หรือ semi-structure เพื่อทำ Predictive Analytic  เพื่อให้ทราบว่า What will happen?
  3. Business Optimization ในขั้นตอนนี้จะเริ่มเห็นความคุ้มค่าของการลงทุนทำ Big Data Project โดยจะเป็นการทำ Prescriptive Analytic เพื่อให้ทราบว่า How should we make in happen?
  4. Data Monetization ในขั้นตอนนี้จะเป็นการขยายผลเพื่อนำ Data ที่จะเป็นทรัพยากรขององค์กรไปใช้เป็นสินทรัพย์ในการทำงานร่วมกับคู่ค้าหรือองค์กรอื่นๆ
  5. Business Metamorphosis ในขั้นตอนนี้จะเป็นขั้นสูงสุดของการทำ Big Data ที่จะเห็นเรื่องของ Business Transformation  ในองค์กรซึ่งอาจเห็นรูปแบบการทำงานใหม่ๆ ธุรกิจใหม่ หรื่อผลิตภัณฑ์ใหม่ๆขององค์กร

จากที่กล่าวมาทั้งหมดนี้จะเห็นได้ว่า การทำ Big Data Project  ไม่ใช่เรื่องง่ายๆอย่างที่เข้าใจ จำเป็นต้องปรับวิธีคิดในองค์กรอย่างมาก และต้องเข้าใจเป้าหมายและระดับขั้นของการทำ Big Data ในองค์กร

ธนชาติ นุ่มนนท์

IMC Institute

พฤศจิกายน 2560

Hortonworks เทียบกับ Hadoop Distribution อื่นๆ

ช่วงสองสัปดาห์ที่ผ่านมา ผมให้ทีมนักศึกษาฝึกงานของ IMC Institute  ในโครงการ Big Data School  ได้ทดลองติดตั้งและเปรียบเทียบ Hadoop Distribution ต่างๆ ซึ่งผมได้เคยเขียนเรื่อง การติดตั้ง Hadoop Distributions  พร้อมทั้งวิธีการติดตั้งไว้แล้ว ในบทความ “Big Data School กับการติดตั้ง Hadoop Distributions” ซึ่งในการเปรียบเทียบDistribution ต่างๆ ผมให้นักศึกษาทดลองติดตั้งสองแบบคือ

  • การติดตั้ง  Hadoop Cluster 4-5  เครื่องบน Amazon EC2 หรือ Microsoft Azure สำหรับที่จะใช้เป็น Production
  • การใช้ Hadoop Sandbox บนเครื่อง Server หรือเครื่อง PC หนึ่งเครื่อง สำหรับที่จะใช้เป็นเครื่องทดลองหรือทำ Development

ซึ่งนักศึกษาก็ได้แบ่งกลุ่มกันทำ  Hadoop Distribution  4 ชุดคือ

Screenshot 2016-06-28 12.20.25

และผมได้ให้พวกเขาสรุปเปรียบเทียบในประเด็นต่างๆเช่น ราคา, ความยากง่ายในการใช้งาน, ความยากง่ายในการติดตั้ง, Opensource Compatibity, คู่มือเอกสารต่างๆและชุมชน, การสนับสนุนจากผู้ผลิต  ซึ่งพอสรุปประเด็นต่างๆได้ดังนี้

  • ราคา: ในแง่ราคา Apache Hadoop เป็นฟรีซอฟต์แวร์แต่ก็ไม่มี support ใดๆ ซึ่งถ้าเปรียบเทียบกรณีนี้ Hortonworks จะดีสุดเพราะฟรีเช่นกันยกเว้นต้องการซื้อ  support ขณะที่ Cloudera จะหรีเฉพาะ  Express Version และ MapR จะฟรีเฉพาะเวอร์ชั่น M3  ซึ่งทั้งสองเวอร์ชั่นไม่ใช่ Full Feature ที่ทั้งสองรายมีให้
  • ความง่ายในการติดตั้ง Cluster: เมื่อพิจารณาจากประเด็นนี้  Cloudera จะติดตั้งง่ายสุดโดยผ่าน Cloudera Manager แต่จริงๆแล้วการติดตั้ง Hortonworks ก็ไม่ยากเกินไปถ้าติดตั้งผ่าน Public Cloud หรือ  Private Cloud ที่เป็น Openstack  โดยใช้ Cloudbreak ส่วน Apache Hadoop ติดตั้งค่อนข้างยากแต่อาจใช้ Ambari ได้
  • ความง่ายในการใช้งาน: Cloudera และ MapR  จะมีส่วนติดต่อผู้ใช้ที่เป็น Hue ที่ค่อนข้างง่ายต่อการใช้งาน ส่วนของ Hortonworks ใช้ Ambari ที่มี Feature เพียงบางส่วน ส่วนของ Apache Hadoop จะต้องติดตั้ง Hue เองซึ่งค่อนข้างยาก
  • Opensource Compatibility: กรณีนี้ Hortonworks จะดีกว่ารายอื่นมากเพราะจะสอดคล้องกับ Apache Hadoop ที่เป็น Opensource ขณะที่ Cloudera จะเป็น Vendor Lockin หลายตัว อาทิเช่น Cloudera Manager หรือ Impala เช่นเดียวกับ MapR ที่ Lockin ตั้งแต่ MapR-FS และ MapR Streaming
  • Sandbox: ถ้าต้องการหาตัวทดลองเล่น Cloudera มีจุดเด่นที่มี Docker Image ให้เลยสามารถเล่นกับเครื่องใดก็ได้ ขณะที่ Hortonworks จะเน้นให้เล่นกับ VMware/VirtualBox หรือจะรันผ่าน Microsoft Azure เท่านั้น ส่วน distributation อื่นๆ (MapR, Apache Hadoop) ก็ไม่มี Official Docker Image  เช่นกัน
  • คู่มือเอกสารต่างๆและ Community:  ในแง่นี้ทั้งสามรายที่เป็น  Commercial Distribution ต่างก็มีเอกสารพอๆกัน แต่ถ้าพูดถึง Community เราอาจเห็นจำนวนคนที่จะแชร์ข้อมูล Cloudera มากกว่า Hortonworks แต่ทั้งนี้เราสามารถใช้ Community กลุ่มเดียวกับ Pure Apache Hadoop เพราะ Hortonworks จะมีความ Opensource Compatibity ค่อนข้างสูงแต่สองรายใหญ่ต่างก็มีงานประจำปีหลายที่คือ Hadoop Summit ของ Hortonworks และ Hadoop World ของ  Cloudera ส่วน MapR จำนวน  Community น้อยสุด
  •  การสนับสนุนจากผู้ผลิต: ถ้ามองในแง่ประเทศไทย การสนับสนุนจากผู้ผลิตของ Cloudera ยังนำรายอื่นๆอยู่มาก ทำให้หน่วยงานในประเทศไทยรายแห่งสนใจใช้ Cloudera

ทั้งนี้เมื่อพิจารณาโดยรวมแล้ว เราสรุปกันว่า ถ้าจะทำ Product ที่มีราคาถูกสุดและสอดคล้องกับ Pure Apache Hadoop มากที่สุดควรเลือกใช้ Hortonworks ทั้งนี้เพราะ  Commercial Distribution จะมีค่าใช้จ่ายในแง่ License หรือ Subscribtion แต่ถ้ามีงบประมาณค่อนข้างเยอะก็อาจเลือกใช้ได้ แต่ไม่ควรใช้ Free Version ของสองรายดังกล่าว (Cloudera และ  MapR) ทั้งนี้เนื่องจากไม่ใช่ Full Features และบางอย่างขาดความเสถียร

แต่ถ้าต้องการทดลองหรือใช้เพื่อทำ Development โดยผ่าน Hadoop Sandbox ก็จะแนะนำให้ใช้  Cloudera Quickstart ซึ่งผมเองก็ใช้ตัวนี้ในการอบรม ดังตัวอย่างเอกสารอบรมของผมดังนี้ >> Big data processing using Cloudera Quickstart

สุดท้ายผมมี  Slide ทีนักฝึกงานของ IMC Institute ได้ทำขึ้นเพื่อเปรียบเทียบ Hadoop Distribution ต่างๆดังนี้

 

ธนชาติ นุ่มมนท์

IMC Institute

มิถุนายน 2559

Slide สำหรับการเรียนรู้ Big Data Hadoop ของ IMC Institute

 

IMC Institute จัดอบรม Big Data Hadoop มาหลายรุ่นและมีคนผ่านอบรมมาจำนวนมาก และเคยทำเอกสารประกอบการบรรยายหลายชุด วันนี้ผมเลยรวบรวม Slide  ต่างๆมาเพื่อให้ทุกท่านได้เรียนรู้ Apache Hadoop + Spark ที่มี Service ต่างๆมากมาย โดยได้เป็นแบบฝึกหัดที่ผู้อ่านสารมารถนำไปฝึกและทดลองใช้งานได้จริง ทั้งนี้ Slide  ต่างๆเหล่านี้จะอ้างอิงกับ Cloudera Quickstart ที่ใช้ Docker Image  ดังนั้นผู้ที่สนใจจะเรียนรู้จาก Slide ชุดนี้จะต้องมีเครื่องคอมพิวเตอร์หรือ Server ที่มี Docker Engine  อยู่ โดยสามารถไปดูขั้นตอนการติดตั้งได้ที่ >> https://docs.docker.com/engine/installation/

Screenshot 2016-06-23 16.23.06

รูปที่ 1  Hadoop Ecosystem

สำหรับ Service ต่างๆที่เคยทำเอกสารการสอนมาก็เป็นไปดังรูปที่ 1  โดยมีเอกสารดังนี้

Service  ด้านเก็บข้อมูล

Service ด้านการประมวลผล

Service ด้านการนำข้อมูลเข้า

Apache Spark

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

Big Data กับการใช้งานในภาครัฐและอุตสาหกรรมอื่นๆ

การนำข้อมูลขนาดใหญ่ไปใช้งานจริงๆ ยังมีไม่มากนัก ทั้งนี้ด้วยข้อจำกัดในเรื่องของเทคโนโลยีและจำนวนบุคลากรที่มีความสามารถ ซึ่งทางสมาคม PIKOM ของมาเลเซียได้ทำรายงานเรื่อง Global Business Services Outlook Report 2015 ชี้ให้เห็นผลกระทบของเทคโนโลยีด้าน Big Data ในประเทศกลุ่ม APAC และอุตสาหกรรมต่างๆ โดยสรุปมาเป็นตารางดังนี้

ตารางที่ 1 ระดับผลกระทบของเทคโนโลยี Big Data [แหล่งข้อมูลจาก PIKOM]

Screenshot 2016-06-11 08.24.00

ซึ่งจะเห็นได้ว่ากลุ่มอุตสาหกรรมที่มีผลกระทบต่อการประยุกต์ใช้เทคโนโลยี Big Data อย่างมากคือ อุตสาหกรรมด้านการเงินการธนาคาร (BFSI) ด้านโทรคมนาคม ด้านค้าปลีกรวมถึงพาณิชย์อิเล็กทรอนิกส์ (E-commerce) และด้านสุขภาพ ส่วนกลุ่มภาครัฐบาลและกลุ่มอุตสาหกรรมการผลิตมีผลกระทบปานกลาง สำหรับประเทศที่มีการประยุกต์ใช้ Big Data อย่างมากคือสหรัฐอเมริกาและสหราชอาณาจักร โดยประเทศญี่ปุ่น สิงคโปร์ และออสเตรเลียมีผลกระทบการประยุกต์ใช้งานปานกลาง ส่วนประเทศไทยอยู่ในกลุ่มที่เหลือที่ยังมีการประยุกต์ใช้งานน้อย

สำหรับตัวอย่างของการนำเทคโนโลยี Big Data มาใช้งานในภาคอุตสาหกรรมต่างๆ มีดังนี้

  • อุตสาหกรรมค้าปลีก อาจนำมาเพื่อวิเคราะห์ความต้องการของลูกค้า เพื่อทำให้เห็นข้อมูลของลูกค้ารอบด้าน (Customer 360) หรือการแบ่งกลุ่มลูกค้า (Customer Segmentation)  นำมาจัดแผนการตลาด สร้างแคมเปญตอบสนองต่อพฤติกรรมการอุปโภค บริโภค ที่ปรับเปลี่ยนอยู่ตลอดเวลา ให้ดึงดูดลูกค้าเข้ามาจับจ่ายใช้สอยมากที่สุด ในสภาพการแข่งขันที่สูง และมีช่องทางอื่นๆ ใหม่ๆ เข้ามาเป็นทางเลือกมากขึ้น
  • อุตสาหกรรมโทรคมนาคม อาจนำเพื่อใช้ในการวิเคราะห์เครือข่ายโทรศัพท์เคลื่อนที่ วิเคราะห์การใช้งานของลูกค้า การวิเคราะห์แนวโน้มการย้ายค่ายของลูกค้า (Customer Churn) และนำเอาข้อมูลไปต่อยอดเพิ่มการให้บริการอีกมากมาย อีกทั้งยังสามารถนำข้อมูลมาวิเคราะห์ เรื่องความมั่นคงปลอดภัย ให้เป็นประโยชน์กับลูกค้าและเพื่อสาธารณะได้อีกด้วย
  • อุตสาหกรรมการเงิน อาจนำมาเพื่อวิเคราะห์การฉ้อโกงเงิน การคาดการณ์ความต้องการของลูกค้า การแบ่งกลุ่มลูกค้า และการวิเคราะห์ความเสี่ยงของลูกค้า
  • ด้านวิทยาศาสตร์และเทคโนโลยีเช่น การพยากรณ์อากาศ การคาดการณ์ข้อมูลน้ำ หรือการวิเคราะห์ข้อมูลจากเซ็นเซอร์ต่างๆ การใช้งานพลังงาน
  • งานด้านการตลาด อาจนำมาเพื่อวิเคราะห์ข้อมูลจากเครือข่ายสังคมออนไลน์ (Social Media) การวิเคราะห์ข้อมูลที่พูดถึงสินค้าหรือแบรนด์ของหน่วยงาน (Sentiment Analysis) การค้นหาลูกค้าใหม่ๆ บนโลกออนไลน์
  • งานด้านบันเทิง หรือการท่องเที่ยว เป็นการวิเคราะห์กระแส ความนิยม talk of the town ในแต่ละกลุ่มบริการซึ่งมีส่วนเกี่ยวโยงกับ ข้อมูล ความคิดเห็น ในโซเชียลมีเดีย เป็นส่วนใหญ่ เพื่อจัดโปรแกรมหรืองาน ที่สร้างความสนใจให้ได้ตรงกับความสนใจของตลาด ในแต่ละช่วง แต่ละเวลา กับกลุ่มเป้าหมายที่ต่างกันไป

การประยุกต์ใช้งาน Big Data ในภาครัฐ

สำหรับตัวอย่างการใช้ประยุกต์ใช้งาน Big Data ในภาครัฐสามารถนำมาใช้งานได้ในหลายๆ หน่วยงานเช่น ด้านสาธารณสุข ด้านวิทยาศาสตร์ ด้านความมั่นคง ด้านการเงิน ด้านการบริการประชาชน ด้านเกษตรกรรม ด้านสาธารณูปโภค หรือด้านคมนาคม อาทิเช่น

  • การใช้เพื่อวิเคราะห์ข้อมูลอุตุนิยมวิทยาในการพยากรณ์อากาศ
  • การใช้เพื่อวิเคราะห์ข้อมูลการจราจร
  • การวิเคราะห์ข้อมูลเพื่อลดปัญหาและป้องกันการเกิดอาชญากรรม
  • การวิเคราะห์ข้อมูลด้านสาธารณสุข เช่น แนวโน้มของผู้ป่วย การรักษาพยาบาล หรือการเกิดโรคระบาด
  • การวิเคราะห์ข้อมูลด้านน้ำ แหล่งน้ำ ปริมาณฝน และการใช้น้ำ
  • การวิเคราะห์ข้อมูลการใช้ไฟฟ้า ค่าการใช้พลังงาน
  • การวิเคราะห์ข้อมูลการทหารและความมั่นคงต่างๆ
  • การวิเคราะห์ข้อมูลเพื่อตรวจสอบการเสียภาษีของประชาชนหรือบริษัทห้างร้านต่างๆ

ข้อดีของการประยุกต์ใช้เทคโนโลยี Big Data ในภาครัฐสามารถสรุปได้ดังนี้

  1. การใช้เงินงบประมาณและเงินรายได้ต่างๆ ของภาครัฐจะมีประสิทธิภาพมากขึ้น เพราะ Big Data จะช่วยคาดการณ์และวิเคราะห์ได้แม่นยำมากขึ้น
  2. ภาครัฐสามารถที่จะตรวจสอบข้อมูลการใช้งบประมาณได้ดียิ่งขึ้น
  3. ภาครัฐจะมีรายได้มากขึ้นหากมีการนำ Big Data มาใช้วิเคราะห์ข้อมูลการเสียภาษีด้านต่างๆ ว่ามีความถูกต้องเพียงใด
  4. ประชาชนจะได้รับการบริการที่ดีขึ้น เช่นการนำมาแก้ปัญหาจราจร  การให้บริการสาธารณสุข การให้บริการสาธารณูปโภค
  5. ประชาชนจะมีคุณภาพชีวิตที่ดีขึ้น เช่นเพิ่มความปลอดภัยโดยการวิเคราะห์แนวโน้มอาชญากรรม การมีสุขภาพที่ดีขึ้นจากการวิเคราะห์ข้อมูลสาธารณสุข
  6. เกิดความร่วมมือกับภาคเอกชนมากขึ้น จากการนำข้อมูลไปใช้
  7. จะมีข้อมูลใหม่ๆ มากขึ้นจากประชาชน (Crowdsourcing) หรือข้อมูลจากอุปกรณ์  Internet of Things
  8. เป็นการสร้างทักษะและผู้เชี่ยวชาญด้านข้อมูลมากขึ้น

อย่างไรก็ตามความท้าทายของการประยุกต์ใช้เทคโนโลยี Big Data ยังอยู่ที่ความร่วมมือของหน่วยงานต่างๆ โดยอาจสรุปปัญหาต่างๆ ที่ควรแก้ไขดังนี้

  1. วัฒนธรรมของหน่วยงานจำนวนมากที่จะรู้สึกหรือคิดว่าข้อมูลเป็นของหน่วยงานตนเอง โดยไม่มีการแชร์ข้อมูลให้กับหน่วยงานภายนอกหรือหน่วยงานอื่นในองค์กรเดียวกัน
  2. คุณภาพของข้อมูลที่อาจไม่สมบูรณ์หรือขาดความถูกต้อง
  3. ปัญหาเรื่องข้อมูลที่เป็นสิทธิส่วนบุคคล หรือความเท่าเทียมกันของการเข้าถึงข้อมูลของภาคประชาชน
  4. การขาดบุคลากรที่มีความสามารถทางด้านเทคโนโลยี Big Data

ดังนั้นสิ่งที่ภาครัฐควรจะต้องเร่งทำเพื่อให้มีการประยุกต์ใช้ Big Data ในองค์กรคือ

  1. พัฒนาความรู้ความเข้าใจในการประยุกต์ใช้เทคโนโลยี Big Data  และสร้างวัฒนธรรมการร่วมมือการแชร์ข้อมูล
  2. ออกกฎหมายหรือกฎระเบียบเพื่อให้เกิดการเปิดข้อมูลของภาครัฐ (Open Data)
  3. พัฒนาทักษะบุคลากรให้มีความรู้ด้านเทคโนโลยี Big Data  
  4. มีหน่วยงานกลางที่ให้บริการเทคโนโลยี Big Data เพื่อไม่ให้เกิดการลงทุนซ้ำซ้อน และไม่ควรให้ทุกหน่วยงานลงทุนซื้อเทคโนโลยีมากเกินไป

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

Azure HDInsight หนึ่งในกลยุทธ์ที่เปลี่ยนไปของ Microsoft (มี Link เอกสารการอบรม)

 

วันก่อนมีโอกาสไปจัดอบรม Big Data using Azure HDinsight ที่ออฟฟิศของ Microsoft มีคนเข้ามาร่วมอบรมจำนวน 50กว่าคน ทำให้มีโอกาสคิดได้ว่าถ้าเป็นสมัยก่อนคงยากที่ผมจะสอนเทคโนโลยีของ Microsoft โดยเฉพาะมาที่ออฟฟิศของเขาเลย เพราะผมสอนและใช้เทคโนโลยีตรงข้ามกับMicrosoft มาตลอด

  • ผมเขียนโปรแกรมและสอน Java Technology
  • ผมเป็น Certified Java instructor
  • ผมใช้เทคโนโลยีฝั่ง Server ที่เป็น Linux, MySQL database และ Java App/Web Server
  • ผมใช้เครื่อง Mac ใช้ ipad และเลือกใช้ smartphone ที่เป็น Android
  • ผมทำเอกสารต่างๆโดยใช้ OpenOffice ใช้ Gmail, Google Docs แม้ว่าจะซื้อ account ของOffice 365 แต่ก็ใช้ยามจำเป็น

แต่วันนี้กลยุทธ์ของ Microsoft มาที่ Mobile กับ Cloud ทำให้ผมต้องเข้ามาใช้ Microsoft Azure ที่เป็นระบบ Cloud ของ Microsoft ซึ่งมีทั้ง IaaS และ PaaS การใช้ IaaS โดยมากก็เป็นการใช้ Virtual Server ที่เป็น Ubuntu Linux ในการติดตั้ง Hadoop Clusterสำหรับ PaaS ที่น่าสนใจก็มี HDinsight ซึ่งเป็น Hadoop as a Service ซึ่งเหมาะกับการใช้ Hadoop Cluster ในช่วงระยะเวลาสั้นๆ เพราะเป็นระบบที่ติดตั้งโดยอัตโนมัติและเป็น Hadoop Distribution ของ Microsoft ที่พัฒนาบน Hortonworks เพื่อให้สามารถเชื่อม HDFS กับ Azure Blob

บริการ PaaS อีกอันของ azure ทีน่าสนใจคือ Machine Learning ซึ่งจัดเป็น Analytics as a Service ที่ผู้ใช้สามารถจะเข้ามาทำการวิเคราะห์ข้อมูลโดยใช้ Machine Learning Algorithm ต่างๆอาทิเช่น Linear Regression, K-Mean หรือ Recommendation สำหรับข้อมูลขนาดใหญ่โดยมี ML Studio ที่ผู้ใช้งานสามารถใช้งานโดยง่านได้

Screenshot 2015-09-23 21.38.47

สำหรับการอบรมที่ผมไปสอนผมใช้ HDInsight บน Linux จะเห็นได้ว่าวันนี้ Microsoft  เป็นระบบที่มีหลากหลาย Platform  แม้แต่ HDInsight ก็สามารถที่จะพัฒนาโปรแกรม  MapReduce ด้วยภาษา Java ผู้ที่ต้องการเรียนรู้การพัฒนาโปรแกรม Big Data  ผมแนะนำที่จะให้ใช้ Azure HDInsight เพราะจะได้ไม่ต้องไปวุ่นวายในการติดตั้ง Hadoop Cluster และ Microsoft เองก็มี Azure Free Trial ให้ใช้ สำหรับการใช้งานจริง HDInsight เหมาะสำหรับการทำงานเพียงระยะสั้นสำหรับผู้ที่ต้องการหา  Cluster ใหญ่ๆมาประมวลผล เพราะหลักการ HDInsight คือจะสร้างแล้วปิดระบบไม่ได้ นอกจากจะ Terminate  ทิ้ง แต่ถ้าต้องการตั้ง  Hadoop Cluster ไว้ระยะยาวบนคราว ผมอยากจะแนะนำให้ติดตั้ง Hadoop Distribution บน Vitual Server จะประหยัดกว่าเพราะสามารถเปิดปิด Server โดยไม่ต้อง Terminate เครื่องได้

สำหรับ Slide ประกอบการบรรยายครั้งนี้ผมมีสองชุด

– ชุดแรกเป็น Big Data using Azure HDInsight โดยสามารถ Download Slide ได้ที่ >> http://tinyurl.com/oco4z8n
– ชุดที่สองเป็นแบบฝึกหัด Azure HDInsight Workshop โดยสามารถ Download Slide ได้ที่ >>  http://tinyurl.com/obv34og

ซึ่งการอบรมนี้จะครอบคลุมเนื้อหา การติดตั้ง HDInsight, แนะนำ MapReduce, การใช้โปรแกรม Hive, การใช้โปรแกรมPig และการImport ข้อมูลจากฐานข้อมูล RDBMS โดยใช้ Sqoop

นอกจาก Slide ชุดนี้เราสามารถศึกษาการใช้ HDInsight ได้เพิ่มเติมจาก Tutorial ของMicrosoft Azure ได้ที่ >> http://azure.microsoft.com/en-us/documentation/services/hdinsight/

ผมเองยังได้เขียน Slide ที่เป็นแบบฝึกหัดสำหรับการใช้ Azure Machine Learning โดยมีแบบฝึกหัดทดลองทำ ML 4  เรื่องคือ

  • Classification เพื่อคาดการณ์ราคารถยนต์โดยใช้ Linear Regression Algorithm
  • Clustering เพื่อแบ่งกลุ่มประเทศตามการบริโภคอาหารโดยใช้ K-Mean Algorithm
  • Recommendation แนะนำร้านอาหารจากข้อมูลในอดีต และ
  • Classification เพื่อคาดการณ์ว่าเที่ยวบินที่มาถึงล่าช้าหรือไม่โดยใช้ Decision Tree Algorithm

โดยสามารถ Download Slide ได้ที่  >> http://tinyurl.com/pkjonbn

สุดท้ายนี้ทาง IMC Institute เองจะเปิดสอนหลักสูตร Azure โดยไม่มีค่าใช้จ่ายอีกครั้งในวันที่ 30 ตุลาคม โดยงานนี้ได้รับการสนับสนุนจาก Microsoft เช่นเคย

ธนชาติ นุ่มนนท์

IMC Institute

กันยายน 2558