Big Data บน Public Cloud

ผมไม่ได้เขียนบล็อกมาสองเดือนกว่า เพราะยุ่งอยู่กับการศึกษาเรื่อง Big Data  เตรียมการสอนและเปิดหลักสูตรใหม่ๆอาทิเช่น

  • เปิดหลักสูตร Big Data Certification จำนวน 120 ชั่วโมงที่มีผู้เข้าร่วมอบรมกว่า30 คน
  • เปิดหลักสูตร Introduction to Data Science เมื่อต้นเดือนเมษายน ก็เน้นสอนเรื่องของ Hadoop, R และ Mahout  ในการทำ Machine Learning รุ่นแรกมีคนเช้ามาเรียน 20 กว่าท่าน
  • ปรับปรุงเนื้อหาหลักสูตร Big Data using Hadoop Workshop โดยมีการนำ Cloud Virtual Server ของ AWS มาใช้ในการอบรม และเปิดอบรมรุ่นแรกของปีนี้เมื่อปลายเดือนมีนาคม มีคนอบรม 30 คน
  • ปรับปรุงเนื้อหา Big Data Programming using Hadoop for Developer  โดยมีการเน้นการใช้ Cluster ขนาดใหญ่บน  Amazon EMR มากขึ้น และเปิดอบรมไปเมื่อเดือนกุมภาพันธ์
  • จัดฟรีสัมมนา Big Data User Group แก่บุคคลทั่วไปเพื่อให้เข้าใจเรื่อง Big Data Analytics โดยจัดไปเมื่อต้นเดือนมีนาคม
  • เปิด Hadoop Big Data Challenge เพื่อคนทั่วไปสามารถมาทดลองวิเคราะห์ข้อมูลขนาดใหญ่บน Hadoop Cluster  ที่รันอยู่บน AWS จำนวนกว่า 40 vCPU

จากการทำงานด้านนี้ในช่วงสองเดือนที่ผ่านมา ทำให้ได้ประส[การณ์และข้อมูลใหม่ๆพอควร โดยเฉพาะประสบการณ์การติดตั้ง Hadoop  หรือ NoSQL บน Public Cloud ซึ่งข้อดีของการใช้ Public Cloud คือเราไม่ต้องจัดหา  Server  ขนาดใหญ่จำนวนมาก และสามารถ Provision ระบบได้อย่างรวดเร็ว แต่มีข้อเสียคือค่าใช้จ่ายระยะยาวจะแพงกว่าการจัดหา  Server เอง และถ้ามีข้อมูลจำนวนมากที่ต้อง Transfer ไปอาจไม่เหมาะสมเพราะจะเกิดความล่าช้า นอกจากนี้ยังอาจมีปัญหาเรื่องความปลอดภัยของข้อมูล

แต่การใช้ Public Cloud จะเหมาะมากกับการใช้งานเพื่อเรียนรู้ หรือการทำ Development  หรือ Test Environment นอกจากนี้ยังมีบางกรณีที่การใช้ Public Cloud มาทำ Big Data Analytics อาจมีความเหมาะสมกว่าการจัดหา Server ขนาดใหญ่มาใช้งานเอง อาทิเช่น

  • กรณีที่ระบบปัจจุบันขององค์กรทำงานอยู่บน Public Cloud  อยู่แล้ว อาทิเช่นมีระบบ Web Application ที่รันอยู่บน Azure  หรือมีระบบอยู่  Salesforce.com
  • กรณีที่ข้อมูลที่ต้องการวิเคราะห์ส่วนใหญ่เป็นข้อมูลภายนอกที่อยู่บน Cloud เช่นการวิเคราะห์ข้อมูลจาก Facebook  ที่การนำข้อมูลขนาดใหญ่เหล่านั้นกลับมาเก็บไว้ภายในจะทำให้เปลืองเนื้อที่และล่าช้าในการโอนย้ายข้อมูล
  • กรณีที่มีโครงการเฉพาะด้านในการวิเคราะห์ข้อมูลขนาดใหญ่เพียงครั้งคราว ซึ่งไม่คุ้มค่ากับการลงทุนจัดหาเครื่องมาใช้เอง

การใช้ Public Cloud สำหรับการวิเคราะห์ข้อมูลโดยใช้  Hadoop หรือ NoSQL มีสองรูปแบบคือ

1)  การใช้ Virtual Server  ในการติดตั้ง Middleware อาทิเช่นการใช้ EC2 ของ  AWS หรือ Compute Engine ของ Google Cloud  มาลงซอฟต์แวร์ ข้อดีของวิธีการนี้คือเราสามารถเลือกซอฟต์แวร์มาติดตั้งได้ เสมือนกับเราจัดหา Server มาเอง และสามารถควบคุมการติดตั้งได้ ที่ผ่านมาผมได้เขียนแบบฝึกหัดที่ติดตั้งระบบแบบนี้อยู่หลายแบบฝึกหัดดังนี้

2)   การใช้  PaaS ที่อาจเป็น Hadoop as a Service หรือ NoSQL as a Service  ซึ่งในปัจจุบัน Public Cloud รายใหญ่ๆทุกค่ายจะมีระบบอย่างนี้ เช่น  EMR สำหรับ Hadoop  และ Dynamo DB สำหรับ  NoSQL บน AWS หรือค่ายอย่าง  Microsoft Azure ก็มี HDInsight สำหรับ Hadoop และ DocumentDB สำหรับ NoSQL ข้อดีของระบบแบบนี้คือ เราจ่ายตามการใช้งานไม่ต้องรัน Server ไว้ตลอด, ติดตั้งง่ายเพราะผู้ให้บริการ  Cloud ลงระบบมาให้แล้ว แต่ข้อเสียก็คือเราไม่สามารถปรับเปลี่ยนซอฟต์แวร์ที่ติดตั้งได้เอง อาทิเช่น Hadoop ที่อยู่บน EMR มีให้เลือกแค่ Amazon  Distribution หรือ MapR  Distribution ผมเองก็ได้เขียนแบบฝึกหัดlสำหรับการใช้ Amazon EMR ไว้ดังนี้

สำหรับผู้ที่ต้องการศึกษาการติดตั้ง Hadoop Cluster  ผมอาจแนะนำให้ใช้ Google Cloud Platform ครับ เพราะระบบมีให้ทดลองใช้ 60 วัน โดยเราสามารถที่จะลองใช้ Compute Engine ขนาด 4 vCPU ได้ (ดูขั้นตอนการติดตั้ง Hadoop บน Google Cloud ตามนี้) และถ้าต้องการใช้ Hadooo[ as a Service ผมแนะนำให้ใช้ Amzon EMR ตามแบบฝึกหัดข้างต้น แต่ก็มีค่าใช่จ่ายในการรันแต่ละครั้ง

วันนี้ขอแค่นี้ครับและอาจเขียนออกเป็นเทคนิคมากหน่อยครับ เพราะไม่ได้เขียนบล็อกมาหลายสัปดาห์ มัวแต่ไปเขียนแบบฝึกหัดที่เป็นด้านเทคนิคให้ผู้เข้าอบรมได้เรียนกัน

ธนชาติ นุ่มนนท์

IMC Institute

เมษายน 2558

กลยุทธ์ Big Data สำหรับประเทศไทย

 

สัปดาห์ที่ผ่านมา IMC Institute จัดแถลงข่าวเรื่อง Big Data Trends โดยผมได้ชี้ให้เห็นว่าในช่วง 2-3 ปีนี้เราจะเห็นถึง Mega-Trends ทางด้านไอทีอยู่  3 อย่างคือ

Screenshot 2015-01-25 16.04.17

รูปที่ 1  IT Mega Trends 2015

  • Internet of Things  อุปกรณ์ในการเชื่อมต่ออินเตอร์เน็ตจะไม่จำกัดอยู่แค่ เครื่องพีซี Smartphone หรือ  Tablet แต่จะรวมไปถึงอุปกรณ์ต่างๆตั้งแต่นาฬิกา, wearable technology, เครื่องใช้ไฟฟ้า และสิ่งของต่างๆ ซึ่งมีการคาดการณ์ว่าจะมีอุปกรณ์เหล่านี้ถึง 50,000 ล้านชิ้นในปี 2020
  • Cloud Computing ระบบการประมวลผลจะขึ้นบนอินเตอร์เน็ตมาจากที่ใดก็ได้ และข้อมูลจะตามเราไปทุกที่ ทุกเวลา และทุกอุปกรณ์
  • Big Data เมื่อมีอุปกรณ์ต่ออินเตอร์เน็ตมากขึ้น ข้อมูลก็จะมากขึ้น จะมีหลายรูปแบบ และเพิ่มขึ้นอย่างรวดเร็ว มีการคาดการณ์ว่าจะมีข้อมูลมากถึง 35 ZByte ในปี 2025 ดังนั้นต่อไปใครที่สามารถนำข้อมูลมหาศาลเหล่านี้มาวิเคราะห์ได้ก็จะได้เปรียบเหนือคู่แข่ง

กระแสเรื่อง Big Data เป็นเรื่องที่เราหลีกเลี่ยงไม่ได้ เพราะ Big Data ไม่ใช่แค่เรื่องของไอที ไม่ใช่แค่มองเรื่องของการเก็บข้อมูล แต่เป็นเรื่องของทางด้านธุรกิจและผู้ใช้ที่จะมองวิธีการในการนำข้อมูลมาวิเคราะห์และคาดการณ์ต่างๆเพื่อให้ได้ประโยชน์ จึงไม่แปลกใจที่เห็นบริษัท E-Commerce รายใหญ่ๆในโลกสามารถวิเคราะห์ข้อมูลคาดการณ์นำเสนอขายสินค้าให้กับลูกค้าได้ ธนาคารบางแห่งสามารถใช้ Big Data มาช่วยในการวิเคราะห์เครดิตของลูกค้าที่จะขอสินเชื่อ หรือแม้แต่บริษัทผู้ให้บริการมือถือก็สามารถใช้ Big Data มาช่วยในการแบ่งกลุ่มลูกค้า (Customer Segmentation)

IDC ได้คาดการณ์มูลค่าตลาดของ Big Data ในปี 2014  ว่าสูงถึง 16.1  พันล้านเหรียญสหรัฐ และคาดการณ์ตลาดของ Big Data ในภูมิภาคเอเซียแปซิฟิกโดยไม่รวมประเทศญี่ปุ่นในปีนี้ไว้ที่  1.61  พันล้านเหรียญสหรัฐ ซึ่งโตกว่าปีที่แล้วถึง 34.7% นอกจากนี้ยังมีการคาดการณ์จากบริษัทวิจัยอย่าง Researchbeam ระบุว่ามูลค่าตลาดของ Hadoop หนึ่งในเทคโนโลยีที่ใช้ในการทำ Big Data จะโตจาก 1.5 พันล้านเหรียญสหรัฐในปี 2012 เป็น 50.2 พันล้านเหรียญสหรัฐในปี 2020

แต่ปัญหาที่หน่วยงานต่างๆจะเจอในเรื่องของ Big Data คือการขาดบุคลากรและขาดข้อมูล Gartner เองระบุว่าในปีนี้จะมีตำแหน่งงานที่เกี่ยวข้องกับ Big Data ทั่วโลกถึง 4.4 ล้านตำแหน่ง แต่คงสามารถที่จะหาคนเข้าทำงานได้เพียง 1 ใน 3 ของตำแหน่งงาน และทาง IDC ก็ระบุถึงตำแหน่งงานทางด้าน Analytics ในสหรัฐอเมริกาว่าจะมีถึงสองแสนตำแหน่งในปี  2018 นอกจากนี้ยังพบว่าในปัจจุบันองค์กรใหญ่ๆเกือบ 70% ต้องซื้อข้อมูลจากภายนอกมาวิเคราะห์และคาดว่าในปี 2019 ทุกองค์กรใหญ่ๆคงต้องซื้อข้อมูล

เรื่อง Big Data ก็เป็นเรื่องที่ประเทศใน  ASEAN ให้ความสำคัญ รัฐบาลสิงคโปร์ตั้งเป้าตั้งแต่ปลายปี  2013 ว่าจะเป็นฮับทางด้านนี้โดยเฉพาะการทำ Big Data Analytics โดยมีการตั้ง Big Data Innovation Center  ส่วนทางนายกรัฐมนตรีของมาเลเซีย Najib Razak  ก็ได้ประกาศนโยบาย Big Data Analytics (BDA)ในปลายปี 2014  โดยวางแผนการทำ Pilot Project ในปีนี้ 4 เรื่อง และวางแผนระยะยาว 7 ปีดังรูป

Screenshot 2015-01-25 17.45.00

รูปที่  2  แผนด้าน Big Data Analytics ของประเทศมาเลเซียเริ่มต้นปี  2014

สำหรับประเทศไทยผมคิดว่าเราคงต้องมีนโยบายอยู่สามด้านตามรูปที่ 3 (ต้องขอขอบคุณ  PostToday  ทีวาดภาพกราฟฟิกนี้สรุปให้)

  1. ภาครัฐและเอกชน
    • Big Data ยังเป็นตลาดใหม่มีการแข่งขันไม่สูงนัก (Blue Ocean) ทุกองค์กรทั้งภาครัฐและเอกชนต้องรีบวางกลยุทธ์เรื่องนี้โดยเร็ว มิฉะนั้นแล้วเราจะเสียเปรียบคู่แข่งเชิงธุรกิจ
    • Big Data จะช่วยสร้างความได้เปรียบทางธุรกิจให้กับคู่แข่งในภูมิภาค ต้องเอาเรื่องนี้เดินควบคู่กับนโยบาย Digital Economy
    • เรื่องข้อมูลจะเป็นเรื่องจำเป็น จึงต้องเร่งส่งเสริมให้มีการทำ Open Data เพื่อให้เกิดการต่อ ยอดนำข้อมูลไปใช้งาน
  2. เทคโนโลยี
    • เทคโนโลยีด้านนี้จะมีการลงทุนที่ค่อนข้างสูง ภาครัฐเองควรจะส่งเสริมให้มีการใช้ทรัพยากรร่วมกัน เพื่อลดค่าใช้จ่ายในการลงทุนด้าน Hardware/Software
    • การตั้ง Cloud Platform สำหรับ Big Data Technology เช่น  Hadoop as a Service เป็นเรื่องจำเป็น ภาครัฐอาจต้องหาหน่วยงานเช่น สำนักงานรัฐบาลอิเล็กทรอนิกส์ (สรอ.) มาช่วยดำเนินงาน  หน่วยงานในภาครัฐหรือบริษัทขนาดกลางและเล็กจะได้สามารถใช้งานได้โดยมีค่าบริการที่ถูกลง
  3. การพัฒนาบุคลากร
    • ต้องเร่งพัฒนาบุคลากรทางด้านนี้ โดยเฉพาะผู้ที่จะมีความเชี่ยวชาญด้านการวิเคราะห์ข้อมูล
    • ระยะเริ่มต้นอาจต้องนำผู้เชี่ยวชาญจากต่างประเทศมาทำ Pilot Project  ในลักษณะ On the job training

Screenshot 2015-01-25 17.51.09รูปที่  3  ข้อเสนอแนะกลยุทธ์ Big Data สำหรับประเทศไทย

Big Data คือเรื่องใหม่และไม่ใช่เรื่องแค่ไอที ตอน Cloud Computing เข้ามาประเทศเราก็ช้าไปและตกขบวนไปแล้ว แม้ Cloud กลายเป็นมาตรฐานในปัจจุบัน แต่ทุกวันนี้ยังมีอุตสาหกรรมไอทีหรือซอฟต์แวร์ไทยจำนวนมากยังไม่เข้าใจเรื่อง Cloud ดีพอ ถ้าเราช้าไปเรื่อง Big Data งวดนี้จะไม่ใช่แค่ตกขบวนไอทีแต่เผลอๆจะตกขบวนทางธุรกิจแข่งกับเขาในโลกดิจิทัลที่เปลี่ยนไปไม่ได้

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2558

อนาคตของเทคโนโลยีฐานข้อมูล (The Future of the Database)

 

วันก่อนได้เห็น Infographic ตามรูปข้างล่างนี้ที่ชื่อว่า The Future of the Database ของ Robin Puro ที่โพสต์ใน  Wired Information Insights ผมว่าเป็นรูปที่เล่าประวัติและคาดการณ์อนาคตของเทคโนโลยีด้านการเก็บข้อมูลได้เป็นอย่างดี

ในรูปเล่าให้เห็นตั้งแต่เทคโนโลยีเก็บข้อมูลในยุคเริ่มต้นในทศวรรษ 1960 แต่ก็จะเน้นให้เห็นถึงในยุคทศวรรษ 1970 ซึ่งเป็นยุคเริ่มต้นของเทคโนโลยีด้าน Relational Database (RDBMS) ทุกคนก็จะเริ่มให้ความสนใจกับเทคโนโลยีการเก็บข้อมูลที่ใช้ภาษา SQL ระบบจะเป็นแบบ Scale Up คือหาเครื่องคอมพิวเตอร์ขนาดใหญ่เข้ามาช่วยในการเก็บข้อมูล จึงเขียนในรูปว่าเป็น Single Instance Relational Database เราจะเห็นโซลูชั่นของ Vendor หลายใหญ่อย่าง Oracle ที่เป็น Commerical Database ตัวเแรก, IBM  ที่ใช้ DB2 หรือ SyBase

ในปลายยุค 1970 และช่วง 1980 ก็มีความพยายามทีจะทำ Entity Relational Database และ Object Oriented Database เพื่อที่จะมาแทนที่ RDBMS แต่ก็ไม่ประสบความสำเร็จและก็หยุดการพัฒนาไป

จากรูป Infographic เราก็จะเห็นว่า มีอีกเทคโนโลยีที่เข้ามาในปลายยุค 1980 ก็คือ Dataware House เพื่อที่จะรวบรวมข้อมูลจากฐานข้อมูลจำนวนมาก ส่วนหนึ่งก็ทำหน้าที่เป็น ETL ของฐานข้อมูลต่างๆ ซึ่ง Dataware House ก็เป็นระบบขนาดใหญ่ที่เป็นเทคโนโลยีแบบ Distributed ที่จะเริ่มใช้ Server หลายๆตัว แต่ก็ยังเป็น SQL โดยมี Vendor อย่าง Teredata เป็นผู้ผลิตโซลูชั่นทางด้านนี้

พอเข้าสู่ยุคของอินเตอร์เน็ตบูมในช่วงปลายทศวรรษ 1990  ข้อมูลเริ่มมีจำนวนมากขึ้น การจะใช้ Server ขนาดใหญ่เพียงเครื่องเดียวเก็บข้อมูลก็เริ่มจะมีปัญหา และต้องใช้ทรัพยากรเช่น CPU หน่วยความจำ หรือ  Storage มากขึ้น การทำวิเคราะห์ข้อมูลอย่างการทำ Business Intelligence หรือ Analytics ก็เริ่มมีมากกว่าการใช้ Transactional Database

ดังนั้นพอขึ้นในยุคทศวรรษ 2000 ก็เริ่มที่จะมีเทคโนโลยีใหม่ๆที่จะเก็บข้อมูลใหญ่ๆได้อย่าง Distrubuted SQL ที่ใช้เครื่อง  Server หลายๆเครื่องอย่าง Clustrix หรือ  NuoDB และก็ Dataware House ใหม่ๆที่เป็นสถาปัตยกรรมแบบ MPP (Massively Palallel Processing) เช่นของ Netezza, Microsoft,  Oracle หรือ IBM มีเทคโนโลยีอย่าง NoSQL ที่ไม่ได้เป็น RDBMS และสามารถเก็บข้อมูลขนาดใหญ่ได้เช่น Google BigTable, MongoDB และ Cassandra และในปลายยุค 2000 ก็มีเทคโนโลยีใหม่อย่าง Hadoop ที่สามารถเก็บข้อมูลที่เป็นแบบ unstructure ได้เป็นจำนวนนับ  Petabyte

มาในยุคปัจจุบันที่กำลังเข้าสู่ Big Data ข้อมูลเริ่มมีขนาดใหญ่ มีหลากหลายรูปแบบไม่ใช่เฉพาะ structure และข้อมูลเปลี่ยนแปลงอย่างรวดเร็ว   (3V: Volume, Variety, Velocity) ทำให้การใช้เทคโนโลยีที่เป็น SQL แบบ Scale Up มีราคาที่แพงขึ้นในขณะที่ระบบแบบ Scale Out ที่เป็น Distributed SQL จะช่วยทำให้เก็บข้อมูลได้มากขึ้น และสามารถวิเคราะห์ข้อมูลแบบ Real-Time ตามความต้องการของธุรกิจได้ และก็เริ่มมีการนำเทคโนโลยีใหม่ที่เป็น MPP มาใช้ใน Distributed SQL รวมถึงโซลูชั่นใหม่ๆอย่าง SAP HANA ที่เป็น in-Memoery Database หรือ  Oracle ExaData นอกจากนี้เราก็ยังเห็นการพัฒนาการของเทคโนโลยีอย่าง Hadoop ที่มีการใช้ภาษาใหม่อย่าง Hive, Pig หรือการพัฒนา Hadoop เวอร์ชั่น 2 ที่มีเทคโนโลนีอย่าง YARN  ที่ช่วยทำให้ประมวลผลแบบ Real-time ได้

สุดท้ายในอนาคต แนวโน้มของ Database ก็จะมี Platform หลักๆอยู่สามตัวที่จะรองรับข้อมูลหลายหลายที่มีขนาดใหญ่คือ  NoSQL, Hadoop  และ  Distributed SQL ทั้งนี้ Single Instance SQL จะมีปัญหาเรื่องการ Scale Up เพื่อรองรับข้อมูลขนาดใหญ่และ Dataware House เองถ้าจะนำมาใช่ในการทำ Analytics ก็จะถูกแทนที่ด้วย Distributed SQL ที่สามารถนำมาใช้ประมวลผลแบบ Real-time  ได้

FutureofDatabase

ธนชาติ นุ่มมนท์

IMC Institute

มกราคม 2558

Big Data Use Cases: ในอุตสาหกรรมต่างๆ

Big Data  เป็นเรื่องที่กำลังอยู่ในความสนใจอย่างมาก เมื่อพูดถึงเรื่องนี้ความสำคัญไม่ได้อยู่เพียงแค่จะใช้เทคโนโลยีใหม่อย่างไร หรือจะเก็บข้อมูลอย่างไร แต่เป็นเรื่องของการนำข้อมูลมาวิเคราะห์ทำให้ เกิดประโยชน์ทางธุรกิจอย่างไี โดยเฉพาะเรื่องของการทำ Analytics เพราะการมีข้อมูลขนาดใหญ่ย่อมทำให้การคาดการณ์ต่างๆมีความแม่นยำขึ้น ซึ่งเมื่อมีการพูดถึงการประยุกต์ใช้งาน Big Data  บางท่านก็อาจนึกในด้านการหาข้อมูลของลูกค้าหรือสินค้า เราลองมาดูว่า Big Data สามารถนำมาทำอะไรได้บ้างดังตัวอย่างในรูปข้างล่างของ  IBM ที่พูดถึงประโยชน์สำหรับกลุ่มคนหรือส่วนงานต่างๆดังนี้

Screenshot 2015-01-03 16.26.30

  • Branch Management:  Big Data สามารถช่วยระบุได้ว่าสินค้าใดหรือสาขาใดขายดีที่สุด
  • Relationship Management:  Big Data สามารถวิเคราะห์ความเสี่ยงและคาดการณ์รายได้จากลูกค้าเมื่อเรานำเสนอสินค้าใหม่ๆได้
  • Marketing:  Big Data  สามารถช่วยทำให้เรานำเสนอสินค้าให้ตรงกับกลุ่มลูกค้าในเวลาที่เหมาะสม
  • Payment: Big Data สามารถช่วยตรวจจับและป้องกันการฉ้อโกงการชำระเงินออนไลน์
  • Executive Leader:   Big Data  สามารถช่วยให้ผู้บริหารมีข้อมูลที่ถูกต้องในการตัดสินใจ ในช่วงเวลาต่างๆ
  • Risk and Finance: สามารถช่วยทำให้การปฎิบัติตามกฎเกณฑ์ต่างๆขงอธุรกิจไปได้ด้วยยิ่งขึ้น เพราะจะช่วยลดความเสี่ยง

ในแง่ของการนำ Big Data มาใช้ในอุตสาหกรรมต่างๆ เราอาจยกตัวอย่างการใช้งานได้ดังนี้

1) Telecommunication: อุตสาหกรรมกลุ่มนี้น่าจะมีข้อมูลที่เป็น Big Data จริงๆ เพราะมีจำนวนลูกค้าที่ผู้ใช้บริการโทรศัพท์อยู่เป็นหลักสิบล้าน และในแต่ละวันจะมีข้อมูลที่เป็น Transaction จากการใช้โทรศัพท์จำนวนมาก ข้อมูล CDR (Call Detail Record) ของผู้ให้บริการโทรศัพท์ในแต่ละวันจะมีขนาดหลาย TB ซึ่งถ้าสามารถนำมาวิเคราะห์ได้จะได้ข้อมูลที่เป็นประโยชน์มากมาย อาทิเช่นการวางแผนการติดตั้งเครือข่าย การวิเคราะห์การใช้งาน การลดการย้ายค่าย ตัวอย่างการนำ Big Data มาใช้งานทางด้านนี้มีดังตารางข้างล่างนี้

Screenshot 2015-01-03 21.14.53ตัวอย่างการนำ Big Data มาใช้งานทางอุตสาหกรรม Telecommunication [Source: Monetizing Big Data at Telecom Service Providers]

2) Banking/Insurance: อุตสาหกรรมการเงินการธนาคาร ก็เป็นอีกกลุ่มที่มีข้อมูลขนาดใหญ่ และ Transaction  ต่อวันมีจำนวนมหาศาล ยิ่งมีการใช้งาน Internet/Mobile Banking มากขึ้น ก็ยิ่งทำให้มีจำนวน Transaction สูงขึ้น Big Data สามารถนำมาใช้เพื่อลดความเสี่ยงต่อการฉ้อโกงได้การชำระเงิน, หรือช่วยในการประเมินความเสี่ยงของลูกค้าที่มากู้ยืมเงิน, หรือช่วยในการประเมินอัตราค่าบริการประกันภัยของลูกค้าแต่ละราย หรือช่วยในการแบ่งกลุ่มลูกค้า (Customer Segmentation) ตัวอย่างของการนำ Big Data มาใช้งานทางด้านนี้มีดังตารางข้างล่างนี้

Screenshot 2015-01-03 21.22.59

ตัวอย่างการนำ Big Data มาใช้งานทางอุตสาหกรรม Finance [Source: IDC Financial Insights]

3) Retails: อุตสาหกรรมค้าปลีกโดยเฉพาะอย่างยิ่งการขายของทางe-Commerce มีความจำเป็นอย่างยิ่งที่ต้องนำ Big Data เข้ามาช่วยในการวิเคราะห์ข้อมูลต่างๆ อาทิเช่น การทำ  Customer Segmentation, การนำเสนอสินค้าให้กับลูกค้า (Next Product to Buy), การศึกษาพฤติกรรมลูกค้า หรือแม้แต่ใช้ในการกำหนดราคาสินค้า (Pricing Optimization) เราจะเห็นว่าผู้ค้าปลีกหลายใหญ่ๆต่างก็พยายามจะเก็บข้อมูลการบริโภคของลูกค้า เพื่อนำข้อมูลเหล่านี้มาวิเคราะห์ ยิ่งเป็น E-Commerce รายใหญ่ๆอย่าง Amazon หรือ eBay ก็ยังมีความสามารถที่จะไปดึงข้อมูลภายนอกอาทิเช่นจาก social media มาวิเคราะห์ความต้องการของลูกค้าได้ ตัวอย่างของการนำ Big Data มาใช้งานทางด้านนี้มีดังตารางข้างล่างนี้

Screenshot 2015-01-03 21.43.11

ตัวอย่างการนำ Big Data มาใช้งานทางอุตสาหกรรม Retails [Source: http://www.crmsearch.com]

นอกจากนี้ ยังมีการนำ Big Data มาใช้ในอุตสาหกรรมอาทิเช่น งานภาครัฐบาล (Government), งานด้านวิทยาศาสตร์, งานด้านสื่อ (Media)  ซึ่งสามารถสรุปตัวอย่างได้ดังรูปข้างล่างนี้

Screenshot 2015-01-03 21.47.09

ตัวอย่างการนำ Big Data มาใช้งานทางอุตสาหกรรมต่างๆ [Source: Big Data Analytics with Hadoop: Phillippe Julio]

ตัวอย่างต่างๆที่พูดถึงวันนี้ เป็นการเกริ่นนำ แต่ผมจะเขียนกรณีศึกษาทางด้านนี้บางกรณีเพิ่อให้เข้าใจเทคโนโลยี และเทคนิคที่เขาใช้ว่า ทำได้อย่างไรในบทความต่อๆไป

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2558

ปี 2015 จะเป็นปีเริ่มต้นของ Big Data Analytics

10687216_434767803337232_5541506154205665487_n

เผลอแป๊ปเดียวก็ผ่านไปอีกปีแล้ว เวลามันช่างผ่านไปอย่างรวดเร็ว บางครั้งก็นึกเสียดายบางช่วงเวลาที่คิดว่าเราน่าจะทำอะไรได้ดีกว่านี้ แต่สิ่งที่ผ่านไปแล้วมันก็คงต้องปล่อยให้มันผ่านไป เราแก้ไขอดีตไม่ได้แต่เราสามารถที่จะทำให้อนาคตดีขึ้นได้ ในฐานะของคนไอทีเกือบ 20 ปีที่ผ่านมา เทคโนโลยีมันมีการเปลี่ยนแปลงตลอด ถ้าใครอยู่นิ่งไปจมอยู่กับอดีตไม่มองถึงเทคโนโลยีที่เปลี่ยนแปลงก็จะลำบาก บางครั้งก็อดสงสัยไม่ได้ว่าคนอาชีพอื่นเขาต้องเรียนรู้อะไรใหม่ๆมากมายตลอดเวลาเช่นนี้ไหมและต้องไล่ล่ากับอนาคตเพื่อให้อยู่รอดในวิชาชีพอย่างคนไอทีหรือเปล่า

20  ปีที่ผ่านมาเราเห็นการเปลี่ยนแปลงตลอดเวลา ผมเองก็ต้องคอยเรียนรู้และก้าวให้ทันกับสิ่งใหม่ๆเสมอ คงไม่ต้องบอกว่าผมเรียนรู้คอมพิวเตอร์มาจากยุคเจาะบัตรด้วยภาษา  Fortarn IV ต้องมาใช้ไมโครคอมพิวเตอร์ยุคที่ยังไม่มี Harddisk เชื่อครับมีคนในอุตสาหกรรมหลายคนในปัจจุบันทีมาจากยุคเก่ากว่าผมอีก แต่ผมอยากตัดบทไปถึงแค่สิบห้าปีก่อน จำได้ว่าตอนนั้นภาษา  Java กำลังเข้ามา ผมเองก็ต้องขนขวายเสียเงินทองไปเรียนและสอบ Certifiied Java Programmer พอยุค Web Server/App Server มาก็ต้องมานั่งศึกษา Java EE มาเรียน Enterprise Application ทำให้เข้าใจ IT Architecture มากขึ้น พอยุค Smart Mobile  รุ่นแรกเข้ามาเมื่อสิบปีก่อนก็ต้องมาเรียนรู้ Java ME เขียนโปรแกรมบน Nokia 7650 และไปอบรมคนทั่วประเทศ

พอถัดมาคนมาพูดถึง Web Services ก็ต้องมาเรียนกันใหม่ มามองเรื่อง Cross Platform และก็ต้องพูดถึง Application Programming Interfaces (APIs) แล้วก็ต้องมาว่ากันถึงเรื่องของ Service Oriented Architecture (SOA) และก็เริ่มมอง Programming Language ที่หลายหลายขึ้น ไม่ว่าจะเป็น Python, Ruby และก็ต้องดู Web Framework ต่างๆ จะเห็นได้ว่าคนไอทีแทบไม่เคยได้ต้องหยุดเรียนรู้สิ่งใหม่ๆ

ห้าปีก่อนพอเรื่อง  Cloud Computing เข้ามา ผมก็เป็นคนแรกๆในบ้านเราที่ไปบรรยายเรื่องนี้ และทดลองเล่น  Cloud Platform ต่างๆทั้ง IaaS, SaaS  และ PaaS พยายามจะบอกกับหลายๆคนว่าวันนี้ไอทีต้องไป Cloud  และตอนนั้นก็เป็น ผอ. Software Park ก็พยายามจัดสัมมนาและร่วมกลุ่มพันธมิตรทางด้าน Cloud Computing  เพื่อชี้ให้เห็นว่า Cloud Computing transforms IT และอุตสาหกรรมซอฟต์แวร์จะต้องขึ้น Cloud ในยุคที่ผมเป็นผอ. Software Park นอกจาก Cloud แล้วก็จะพูดถึงเรื่อง Mobile เพราะเชื่อว่า Devices กำลังจะเปลี่ยนสู่ยุคของ Smartphone/Tablet  จนมีคนแซวผมว่าหน้าผมคือ  Cloud and Mobile

ทันทีที่ผมก่อตั้ง IMC Institute เมื่อสองปีที่ก่อน ผมเริ่มที่จะจัดอบรม Big Data และพยายามจะจัดสัมมนาด้านนี้มากขึ้นเพราะผมเชื่อว่าเรื่องนี้กำลังจะมา และเราจำเป็นต้องสร้างบุคลากรทางด้านนี้ โดยผมเน้นเรื่องของเทคโนโลยี Hadoop ที่สามารถเก็บ Unstructure Data ได้มหาศาล ช่วงเวลาสองปีทาง IMC Institute ก็ได้อบรมคนไปหลายร้อยคน และก็ได้ช่วยทำให้คนเข้าใจเทคโนโลยีนี้มากขึ้น

กระแส Big Data กำลังมาอย่างแน่นอน เพราะตอนนี้จำนวน Devices ทั่วโลกมีหลายพันล้าน คนใช้อินเตอร์เน็ตมีมากขึ้น มีการใช้ Social Network มีมากขึ้น และเรื่องของ Internet of Things  กำลังมา สิ่งต่างๆเหล่านี้ล้วนแต่มีการสร้างข้อมูลใหม่ๆอยู่ตลอดเวลา จำนวนข้อมูลมากขึ้นทุกวันและมีข้อมูลที่เป็น Unstructure จำนวนมาก จึงมีความจำเป็นต้องหาเทคโนโลยีใหม่ๆมาใช้ในการเก็บและวิเคราะห์ข้อมูล ผมเชื่อว่าในปี 2015 นี้เรื่องของ Big Data Analytics จะมีความสำคัญมากขึ้น เพราะธุรกิจต่างๆจะมีการแข่งขันกันมากขึ้น ใครก็ตามที่สามารถจะนำข้อมูลขนาดใหญ่มาวิเคราะห์ได้คนนั้นจะได้เปรียบเหนือคู่แข่ง Big Data transform Business

ภาพโครงสร้างพื้นฐานข้อมูล (Information Infrastructure) ในอนาคตขององค์กรจะเปลี่ยนแปลงไปเพราะขนาดข้อมูลที่ใหญ่ขึ้น และชนิดข้อมูลที่หลากหลาย เราน่าจะเป็นโครงสร้างที่ใช้เทตโนโลยีต่างๆมากขึ้นดังตัวอย่างในรูป

Screenshot 2015-01-02 21.52.09

รูปตัวอย่าง Information Infrastructure ขององค์กร

ปี  2015 เราควรจะต้องเตรียมพร้อมอย่างไรบ้างกับเรื่องของ Big Data Analytics

1) องค์กรต้องมี Big Data Strategy: ฝั่งธุรกิจและไอทีคงต้องมาร่วมกันในการวางแผนที่จะนำข้อมูลมาใช้ในการสร้างความสามารถในการแข่งขัน เพื่อให้เข้าใจและคาดการณ์ข้อมูลลูกค้า สินค้า หรือคู่แข่งได้ดีขึ้น โดยต้องสามารถที่จะใช้ข้อมูลจากขั้น Business Intelligence ไปสู่ Predictive Analytics

2) องค์กรต้องมีการวางแผนด้าน Information Infrastructure ใหม่: ข้อมูลในอนาคตจะมีขนาดใหญ่มาก การจะวางโครงสร้างพื้นฐานข้อมูลขององค์กรให้ขึ้นกับ Database หรือ  Enterprise Datawarehouse (EDW) แต่อย่างเดียวคงไม่สามารถเป็นไปได้ เพราะค่าใช้จะสูงมาก คงต้องเริ่มพิจารณาเทคโนโลยีอย่าง Hadoop หรือ NoSQL ด้วย

3)  องค์กรต้องเร่งพัฒนาบุคลากรด้านข้อมูล: เทคโนโลยีด้านนี้จะเปลี่ยนไปมาก องค์กรจำเป็นต้องพัฒนาบุคลากรทั้งที่จะเป็น  Chief Data Office, Data Architecture, IT Profeession, BI Analysis และ Data Scientist

ครับเราคงต้องเริ่มที่จะต้องเตรียมพร้อมเข้าสู่ยุคของ Big Data Analytics  กันแล้ว

ธนชาติ นุ่มนนท์

IMC Institute

มกราคม 2558

การวางกลยุทธ์ด้าน Big Data ขององค์กรและ Technology ด้าน Data ต่างๆ

 

Big Data คือแนวโน้มของเทคโนโลยีไอทีที่สำคัญที่ทุกองค์กรต้องให้ความสำคัญเพื่อนำข้อมูลมาสร้างศักยภาพในการดำเนินธุรกิจ ปัจจัยที่เกี่ยวข้องกับด้าน Big Data จะมีสามด้านคือ

  • Data Source องค์กรจะต้องคำนึงถึงข้อมูลที่จะมีความหลากหลายมากขึ้น ข้อมูลที่จะนำมาใช้จะมีทั้ง structure และ unstructure ซึ่งในอนาคตข้อมูลกว่า 85% จะเป็นแบบ unstructure นอกจากนี้องค์กรก็อาจจะต้องมีการนำข้อมูลภายนอกองค์กรมาใช้เช่นข้อมูลจาก Social Networks. หรือข้อมูลจากคู่ค้า (partner) ซึ่งทาง Gartner เองก็ชี้ให้เห็นว่าแนวโน้มที่องค์กรต่างๆจะนำข้อมูลมาใช้งานเมื่อเทียบกับข้อมูลที่มีอยู่ทั้งหมดมีสัดส่วนจำนวนน้อยลงเรื่อยๆดังแสดงในรูปที่ 1

Figure1

รูปที่ 1 สัดส่วนของข้อมูลที่จะมีการนำมาใช้วิเคระห์เมื่อเทียบกับข้อมูลทั้งหมด

  • Information Infrastructure องค์กรจำเป็นจะต้องมีการโครงสร้างพื้นฐานด้านข้อมูลเพื่อให้รองรับข้อมูลที่เป็น Big Data ซึ่งนอกจากฐานข้อมูลแบบเดิมที่เป็น SQL แล้ว อาจต้องนำเทคโนโลยีใหม่ๆอย่าง Hadoop, NoSQL หรือ MPP เข้ามาใช้ในองค์กร ซึ่งผมเองเคยเขียนบทความแนะนำเทคโนฌลยีต่างๆไว้คร่าวๆในเรื่อง เทคโนโลยี Big Data: Hadoop, NoSQL, NewSQL และ MPP
  • Analysis องค์กรประกอบสำคัญอีกเรื่องคือ การนำข้อมูลที่เป็น Big Data มาประมวลผลและวิเคราะห์เพื่อเพิ่มประสิทธิภาพในการทำงาน ซึ่งอาจเป็นการทำ Business Intelligence หรือ Predictive Analytics ตามที่ผมเคยเขียนในบทความเรื่อง Big Data Analytics กับความต้องการ Data Scientist ตำแหน่งงานที่น่าสนใจในปัจจุบัน

สิ่งแรกองค์กรควรคำนึงถึงในการทำ Big Data คือมองกลยุทธ์ทางธุรกิจว่าต้องการอะไรไม่ใช่เรื่องของเทคโนโลยี เมื่อทราบวัตถุประสงค์ทางธุรกิจแล้วทีมทางด้านไอทีก็คงต้องมาพิจารณาดูว่ามี Data Source อะไรที่ต้องใช้ และต้องใช้เทคโนโลยีอะไรเพื่อให้บรรลุวัตถุประสงค์ เพื่อให้เห็นภาพของการวางกลยุทธ์ด้าน Big Data ผมขอยกตัวอย่าง Template ที่ผมนำมาจากหนังสือเรื่อง Big Data: Understanding How Data Powers Big Business

Screenshot 2014-12-06 12.42.45

รูปที่ 2 Big Data Strategy Temple [Source: Big Data: Understanding How Data Powers Big Business]

จาก Template นี้จะเห็นได้ว่า เราควรจะเริ่มจากการกำหนด Business Initiatives ของการจะนำข้อมูลมาใช้ จากนั้นคงต้องพิจารณาว่าอะไรคือผลลัพธ์ที่คาดว่าจะได้และอะไรคือปัจจัยสู่ความสำเร็จ จากนั้นถึงจะกำหนดงาน (Task) ที่ต้องทำ และระบุถึงข้อมูลที่จะนำมาใช้

ซึ่งเมื่อเรากำหนดกลยุทธ์ทางด้าน Big Data โดยเริ่มจากมุมมองธุรกิจเช่นนี้แล้ว เราค่อยมาคำนึงถึงเทคโนโลยีที่จะต้องนำมาใช้งาน จากรูปที่ 3 จะเห็นได้ว่า เทคโนโลยีแต่ละแบบจะมีความเหมาะสมกับข้อมูลที่แตกต่างกัน เช่น

Figure3

รูปที่ 3 เปรียบเทียบเทคโนโลยีการเก็บข้อมูลแบบต่างๆ [Source: Amazon Web Services]

  • Traditional Database คือเทคโนโลยีฐานข้อมูล SQL แบบเดิมสำหรับข้อมูลที่เป็น structure ในระดับ GByte ถึง TByte และมีความเร็วในการประมวลผลไม่มากนัก
  • MPP Database คือเทคโนโลยีสำหรับข้อมูลขนาดใหญ่หลาย TByte ที่เป็น structure โดยมีความสามารถในการประมวลผลข้อมูลขนาดใหญ่ได้อย่างรวดเร็ว ตัวอย่างของ MPP มีอาทิเช่น Oracle Exadata. SAP HANA, Amazon Redshift หรือ Datawarehouse อย่าง Teredata หรือ Greenplum
  • NoSQLคือเทคโนโลยีในการเก็บข้อมูล semi-structure ขนาดใหญ่ โดยไม่ได้ใช้คำสั่งในการประมวลผลที่เป็น SQL ต้วอย่างเช่น mongo DB, Cassendra หรือ Dynamo DB
  • Hadoop คือเทคโนโลยีในการเก็บข้อมูลที่เป็น unstructure ซึ่งสามารถจะเก็บข้อมูลขนาดใหญ่ได้เป็น PByte

องค์กรจะต้องเตรียมโครงสร้างพื้นฐานเพื่อที่จะรองรับ Big Dataโดยจะต้องใช้เทคโนโลยีเหล่านี้ผสมผสานกัน องค์กรคงยังต้องมี SQL Database แต่ขนาดเดียวกันอาจต้องมี Hadoop สำหรับเก็บข้อมูลขนาดใหญ่ที่เป็น unstructure และอาจต้องมี MPP Database ที่อาจเป็น DatawareHouse หรือ Large Scale Database อย่าง Oracle ExaData

ในปีหน้าทาง IMC Institute จะมุ่งเน้นเรื่อง Big Data มากขึ้น ซึ่งนออกเหนือจากการเปิดหลักสูตรต่างๆในด้าน Big Data อพื่อพัฒนาบุคลากรแล้ว (ดูบทความ IMC Institute ปรับปรุงหลักสูตรด้าน Big Data ในปีหน้า เพื่อสร้างคนไอที) ยังได้ร่วมมือกับบริษัทต่างประเทศที่เชี่ยวชาญในด้าน Big Data คือ Cosmos Technology และ Xentio ในการที่จะวางแผนกลยุทธ์และทำโครงการด้าน Big Data ให้กับองค์กรต่างๆในประเทศไทย ซึ่งถ้าท่านใดสนใจก็สามารถจะติดต่อมายัง IMC Institute ได้

ธนชาติ นุ่มนนท์

IMC Institute

ธันวาคม 2557

 

IMC Institute ปรับปรุงหลักสูตรด้าน Big Data ในปีหน้า เพื่อสร้างคนไอที

IMC Institute  เปืดมาได้สองปี นอกเหนือจากงานด้่าน IT Market Research และ IT Consult งานหลักอีกด้านที่ทางสถาบันทำคือการจัดฝึกอบรมเพื่อพัฒนาบุคลากรด้านไอที ที่พยายามสร้างความแตกต่างด้วยการเน้นเรื่องของ Emerging Technology ซึ่งด้านหนึ่งที่เราทำการอบรมคือ Big Data ในรอบสองปีที่ผ่านมาเราเปิดอบรมหลักสูตรต่างๆ ตั้งแต่ Introduction to Big Data, Hadoop, Business Intelligence, Big Data Strategy  ที่เราทำการอบรมทั้งกลุ่มคนที่เป็นคนไอที คนดูแลระบบ นักพัฒนาโปรแกรม ผู้บริหารด้านไอที ร่วมถึงทำโครงการ  Train the trainers  และบางครั้งเราก็ร่วมกับพันธมิตรอย่าง Oracle  หรือ Computerlogy ในการจัดฟรีสัมมนาให้ความรู้ด้าน  Big Data ให้กับคนทั่วไป

ผมพยายามทำข้อมูลมาดูตัวเลขเฉพาะกลุ่มคนที่เราอบรมหลักสูตรตั้งแต่หนึ่งวันขึ้นไปในหลักสูตรที่เกี่ยวข้องกับ  Big Data มีถึง 633 คน โดยวิชาที่มีคนมาอบรมมากที่สุดก็คือ Big Data Using Hadoop ตามมาด้วย Business Intelligence Design and Process นอกจากนี้เรายังมีการอบรมอาจารย์สถาบันอุดมศึกษาต่างๆจำนวน 28  คนเพื่อให้ทราบเรื่อง Cloud Computing และ Big Data รวมทั้งมีการทำ in-House ในหน่วยงานต่างๆทั้งที่เป็นสถาบันการเงิน และผู้ให้บริการโทรศัพท์เคลื่อนที่

Screenshot 2014-11-20 07.45.14

รูปที่ 1 จำนวนผู้อบรมหลักสูตรด้าน Big Data กับ IMC Institute

Big Data  เป็นเทคโนโลยีที่ทุกหน่วยงานจะมองข้ามไปไม่ได้ และธุรกิจจะต้องให้ความสำคัญกับเรื่องนี้ หน่วยงานที่สามารถเอาข้อมูลมาวิเคราะห์และใช้ Big Data ในการทำ Predictive Analytics จะได้เปรียบเหนือคู่แข่ง แต่อย่างไรก็ตามบ้านเรายังขาดคนทางด้านนี้อีกมาก ในปีหน้าทาง IMC Institute ก็จะให้ความสำคัญกับการอบรมทางด้านนี้โดยจะเน้นการปรับปรุงหลักสูตรให้มีคุณภาพให้ดียิ่งขึ้นดังนี้

  • เชิญวิทยากรที่เชี่ยวชาญทางด้าน Big Data มาร่วมกับทางสถาบันมากขึ้น
  • ใช้ระบบ Virtual Server  บน Public Cloud อย่าง Amazon Web Services ในการอบรม เพื่อให้ผู้อบรมสามารถฝึกการสร้าง Big Data Cluster ได้จริง
  • เปิดการอบรมด้าน Data Scientist เพื่อให้คนไอทีเข้าใจการทำ Predictive Analytics
  • เปิดการอบรมสำหรับผู้บริหารเพื่อให้เข้าใจการวางแผนกลยุทธ์ด้าน Big Data
  • สนับสนุนการอบรมบุคลากรในสถาบันอุดมศึกษา เพื่อจะได้ช่วยกันสร้างบุคลากรด้านนี้

ซึ่งในปีหน้าทาง  IMC Institute  จะเปืดหลักสูตรต่างๆทางด้าน Big Data ดังนี้

  • Train the Trainers: Cloud Computing & Big Data Workshop: หลักสูตร 5 วันนี้ทาง IMC Institute เน้นจัดอบรมให้กับอาจารย์ในสถาบันอุดมศึกษา เพื่อจะเตรียมหลักสูตรให้สอดคล้องกับ Emerging Technology ทางด้าน Cloud และ  Big Data โดยเก็บค่าอบรม  5,500 บาท
  • Big Data Certification Course: หลักสูตร 120 ชั่วโมง เริียนทุกวันพฤหัสบดีเย็นและวันเสาร์ทั้งวัน เป็นเวลา 4  เดือน เริ่มตั้งแต่กลางเดือนมีนาคม เป็นหลักสูตรที่ต้องการพัฒนาคนไอทีีให้เข้าใจเรื่อง Big Data  การใช้เครื่องมือต่างๆทั้ง NoSQL, Hadoop, R, Mahout  และเรียนรู้เรื่องของ BI กับ  Data Scientist
  • Big Data in Actions for Senior Management: หลักสูตรสำหรับผู้บริหาร ที่ต้องการเข้าใจเรื่อง  Big Data  การวางแผนกลยุทธ์ทางด้าน Big Data  รวมถึงการเรียนรู้เทคโนโลยีต่างๆที่เกี่ยวข้องกับ Big Data
  • Introduction to Data Scientist: หลักสูตรสอนหลักการของ Data Science โดยจะอบรมด้าน Machine Learning พร้อมการใช้ R และ  Mahout
  • Business Intelligence Design and Process: หลักสูตรด้าน  BI ของสถาบันที่จะสอนให้รู้จักการวิเคราะห์ข้อมูล การทำ Data Mining และการใช้  Data Warehouse
  • Big Data using Hadoop Workshop: หลักสูตรนี้สอนการติดตั้ง Hadoop และแนะนำ Hadoop Eco-System โดยจะมีการติดตั้งบน Local Machine  และสร้าง Hadoop Cluster จากระบบจริงบน Cloud พร้อมทั้งเรียนการใช้งาน Big Data as a Service บน  Cloud
  • Big Data Programming using Hadoop for Developers: หลักสูตรการพัฒนาโปรแกรมสำหรับ  Big Data บน  Hadoop โดยใช้ Map/Reduce, Hive, Pig และปฎิบัติจริงกับ Hadoop Cluster บน  Amazon EMR

ก็หวังว่าหลักสูตรต่างๆของ IMC Institute  จะเป็นประโยชน์ต่อการพัฒนาคนอุตสาหกรรมไอที เพื่อสามารถแข่งขันในด้าน Emerging Technology ได้

ธนชาติ นุ่มนนท์

IMC Institute

พฤศจิกายน 2557

ความเข้าใจผิดบางประการเกี่ยวกับ Big Data

ผมเคยเขียนบทความเรื่อง ความเข้าใจผิดบางประการเกี่ยวกับ Coud Computing มาระยะหลังผมได้ศึกษาเรื่อง Big Data มากขึ้น มีโอกาสได้ไปบรรยายและให้คำปรึกษาเกี่ยวกับเรื่องนี้ในหลายๆที่ ก็เลยพบว่าหลายๆคนมีความเข้าใจคาดเคลื่อนเกี่ยวกับ Big Data เช่นเดียวกัน วันนี้จึงขอรวบรวมมาสรุปความเข้าใจผิดบางประการเกี่ยวกับ Big Data ดังนี้

  • Big Data คือข้อมูลขนาดใหญ่ หลายๆคนแปลคำว่า Big Data แบบตรงตัวแล้วสรุปเอาตรงเลยว่า Big Data ก็คือข้อมูลที่มีขนาดใหญ่ ซึ่งจริงๆแล้วก็มีส่วนถูกอยู่บ้าง แต่ความหมายของ Big Data ประกอบด้วย 3 องค์ประกอบคือ Volume ข้อมูลมีขนาดใหญ่ Velocity ข้อมูลเปลี่ยนแปลงไปอย่างรวดเร็ว และ Variety ข้อมูลมีหลากหลายรูปแบบทั้ง structure และ unstructure จากองค์ประกอบทั้งสามนี้ทำให้เราไม่สามารถที่จะใช้วิธีการจัดการข้อมูลในปัจจุบันมาใช้ได้ หากต้องการได้ประโยชน์จาก Big Data อย่างแท้จริง
  • Big Data สามารถบริหารจัดการได้โดยใช้ฐานข้อมูล RDBMS แบบเดิม จริงๆแล้วเวลาเราพูดถึง Big Data ข้อมูลจะมีขนาดใหญ่มากหลายร้อย TeraByte หรืออาจเป็น PetaByte  และก็มีทั้งแบบ Structure หรือ unstructure ทำให้เราจำเป็นต้องปรับปรุงโครงสร้างเทคโนโลยีด้านข้อมูล (Information Infrastructure) โดยนำเทคโนโลยีใหม่เช่น NoSQL, NewSQL หรือ Hadoop เข้ามาใช้ ตัวอย่างเช่นทุกวันนี้บริษัทผู้ให้บริการมือถือที่ต้องเก็บ CDR (Call Detail Record) ที่มีข้อมูลหลาย TB ต่อวันทำให้ไม่สามารถเก็บไว้ใน RDBMS ได้ในระยะเวลานานได้ จึงต้องมีการนำเทคโนโลยีอย่าง Hadoop มาเพื่อให้สามารถเก็บข้อมูลได้นานขึ้น และนำข้อมูลระยะยาวมาวิเคราะห์ได้
  • Hadoop คือเครื่องมือในการทำ Big Data ข้อเท็จจริงคือว่า Big Data จะต้องมีการบริหารข้อมูลขนาดใหญ่ในหลายรูปแบบ Hadoop ก็เป็นเพียงเครื่องมือหนึ่งที่น่าสนใจถ้าต้องการเก็บ unstructure data ขนาดใหญ่ที่เก็บข้อมูลได้เป็น PetaByte และสามารถที่จะใช้ร่วมกับ RDBMS และ EDW (Enterprise Data Warehouse) นอกจากต้นทุนในการเก็บข้อมูลจะต่ำกว่ามากดังแสดงในรูปที่ 1  ทำให้ Hadoop เป็นเทคโนโลยีืที่น่าสนใจมากถ้าเราต้องการทำ Big Data แต่ Hadoop ก็จะไม่ได้มาแทนที่เทคโนโลยีการเก็บข้อมูลแบบเดิมเช่น RDBMS และ EDW

Screenshot 2014-11-17 16.27.33

รูปที่ 1 ราคาเปรียบการเก็บข้อมูลต่อ TB โดยใช้เทคโนโลยีต่าง [Source: Monetizing Big Data at Telecom Service Providers]

  • Strucure Data ในองค์กรเพียงพอต่อการทำ Big Data ข้อมูลในปัจจบันมีแนวโน้มที่จะเป็น unstructure data มากกว่า structure data โดยมีการประมาณการว่า 85% ของข้อมูลทั้งหมดคือ unstructure data ที่อาจเป็นข้อมูลที่เป็น text, รูปภาพ, อีเมล์, social media หรือ semistructure data อย่าง JSON และ XML ดังนั้นหากองค์กรต้องการจะได้ประโยชน์จาก Big Data ก็ต้องมีการนำ unstructure data มาใช้ และอาจต้องให้ความสำคัญข้อมูลภายนอกองค์กรพอๆกับข้อมูลที่เก็บไว้ในองค์กร
  • Big Data คือการนำข้อมูลมาเก็บและแสดงผลแบบ BI  จริงๆแล้วคุณค่าของการทำ Big Data คือการนำข้อมูลจำนวนมหาศาลมาวิเคราะห์คาดการณ์อนาคต (predictive analytics)  ที่ไม่ใช่เพียงแค่การทำ static report ที่เป็นการนำข้อมูลในอดีตมาประมวลผลและสรุปในมิติต่างๆที่เราจะเน้นในการทำ Business Intelligence
  • Data Scientist ก็คือ Business Analyst งานสองอาชีพนี้แตกต่างกันมากเพราะ Data Scientist คือผู้ที่จะนำข้อมูลมาทำ Predictive Analytics จึงต้องมีความรู้ด้านคณิตศาสตร์ที่เป็นโมเดลคณิตศาสตร์ในการวิเคราะห์อัลกอริทึม มีความรู้ด้านการพัฒนาโปรแกรม และมีความรู้ในธุรกิจที่จะวิเคราะห์ข้อมูล ขณะที่ Business Analyst อาจเป็นนักสถิติหรือทีมงานที่สามารถนำข้อมูลในอดีตมาประมวลผลในหลายมิติ แล้วสามารถทำเป็นรายงาน หรือรูปภาพกราฟฟิกต่างๆได้
  • Predictive Analytics ต้องทำกับ BigData เท่านั้น จริงๆแลัวการทำ Predictive Analytics สามารถจะใช้กับข้อมูลใดๆก็ได้ และเป็นการเน้นเรื่องของ Algorithm ที่มาคาดการณ์ในด้านต่างๆ แต่การมีข้อมูลในการมาวิเคราะห์ที่มีขนาดใหญ่ก็จะมีคาดแม่นย้ำในการคาดการณ์ที่ดีขึ้น เหมือนระบบ e-commerce ที่เมื่อมีจำนวนลูกค้ามาซื้อสินค้ามากขึ้นก็สามารถที่จะดูพฤติกรรมการซื้อของกลุ่มคนที่ใกล้เคียงกันได้ และสามารถแนะนำสินค้าที่น่าจtซื้อต่อไป (Next Thing to Buy) ได้ดียิ่งขึ้น
  • Hadoop เป็นเรื่องยากจะต้องเขียนโปรแกรมภาษาจาวาในการประมวลผลและทำงานแบบ Batch เท่านั้น เรื่องนี้อาจถูกต้องถ้ากล่าวถึง  Hadoop 1.0 แต่ก็มีการพัฒนาภาษาคล้าย SQL อย่าง Hive QL, Impala มาทำให้ประมวลผลได้ง่ายขึ้นโดยไม่ต้องเขียนโปรแกรม และถ้าพูดถึงเวอร์ชั่น 2.x ในปัจจุบัน  Hadoop ได้พัฒนาไปมาก ทำให้เราสามารถที่จะประมวลผลแบบ Realtime หรือใช้โปรแกรมภาษาอย่างอื่นเช่น Python มาช่วยประมวลผลได้

ธนชาติ นุ่มนนท์

IMC Institute

พฤศจิกายน 2557

ความพร้อมด้าน Big Data ของบ้านเรา คงต้องให้ระยะเวลาอีกพักหนึ่ง

Big Data เป็นเทคโนโลยีที่ถูกกล่าวขานกันมากที่สุดในช่วง 1-2 ปีนี้ Big Data ไม่ใช่เรื่องที่พูดกันเฉพาะวงการไอทีแต่มีการพูดถึงกันมากในทุกภาคส่วนอุตสาหกรรมทั้งด้านการตลาด ภาคการค้าขาย ภาคสาธารณสุข วงการวิทยาศาสตร์ ภาครัฐบาล หรือแม้แต่ภาคการเงินการธนาคาร หลายๆคนกล่าวกันการเข้ามาของ Big Data จะทำให้เรามีข้อมูลที่ดีขึ้น สามารถคาดการณ์ข้อมูลแม่นยำยิ่งขึ้น และเมื่อเห็นโลกของ Social Network ที่โตขึ้นอย่างรวดเร็ว หลายคนก็คิดว่าน่าจะเป็นโอกาสที่ดีของ Big Data บางคนพยายามจะบอกว่า Big Data ของประเทศไทยกำลังจะโตขึ้นมากจะมีการใช้กันมากมายเพราะเรามีการใช้อินเตอร์เน็ตแบะ Social Media มากขึ้น และบ้างก็เข้าใจว่าบ้านเราพร้อมและอยู่แนวหน้าทางด้าน Big Data ในฐานะที่ผมอยู่ในภาคอุตสาหกรรมและเกี่ยวข้องการภาคการศึกษาโดยตรงในการพัฒนาบุคลากร และได้เริ่มสนใจเรื่อง Big Data อย่างจริงจังในช่วงสองปีที่ผ่านมา อาจเห็นแย้งในเรื่องนี้ จึงขอให้เหตุผลประกอบว่าทำไมบ้านเรายังต้องพัฒนาเรื่อง Big Data อีกมากก่อนจะพร้อมที่แข่งขันกับที่อื่นๆได้ดังนี้

การขาดความเข้าใจเรื่อง Big Data

คนจำนวนมากยังไม่เข้าใจว่า Big Data คืออะไร หลายๆคนก็ไปแปลตรงๆว่าคือข้อมูลใหญ่ซึ่งส่วนหนึ่งก็ไม่ผิดอะไร ผมเคยเขียนบทความหลายๆครั้งแล้วเรื่องความหมายของ Big Data จึงไม่อยากกล่าวซ้ำอีก แต่สิ่งสำคัญคือ Big Data คือการมองอนาคตที่จะเปลี่ยนแปลงรูปแบบของการจัดการข้อมูล แผนกไอทีจะต้องพร้อมที่จะบริหารจัดการกับข้อมูลแบบผสม (Hybrid Data) ที่จะมีทั้ง structure data และ unstructure data รวมถึงความสามารถในการที่นำ Dark Data ซึ่งเป็นข้อมูลที่เราเก็บไว้แต่ไม่เคยนำมาใช้ประโยชน์ มาสร้างประโยชน์ให้กับหน่วยงาน นอกจากนี้บางครั้งเรายังไม่เข้าใจถึงประโยชน์ของ Big Data ที่ได้จากการทำ Predictive Analytics ซึ่งมันแตกต่างกับการทำ Business Intelligence ที่เราเคยทำกัน และการทำ Big Data Analytics ต้องการบุคลากรที่เป็น Data Scientist ไม่ใช่เฉพาะ Programmer หรือ Business Analytist  ความเข้าใจคาดเคลื่อนเกี่ยวกับ Big Data ทำให้องค์กรขาดการเตรียมพร้อมเกี่ยวกับเรื่องนี้ และเข้าใจผิดคิดว่าโครงสร้างข้อมูลในปัจจุบันรองรับแล้ว ขาดการเตรียมพร้อมด้านบุคลากรทั้งทางด้านไอทีและนักวิเคราะห์ข้อมูล

ขาดข้อมูลขนาดใหญ่

ข้อมูลส่วนใหญ่ในบ้านเรายังเป็นข้อมูลแบบปิดยังไม่มีการทำ Open Data กันมากเท่าไร และข้อมูลที่มีอยู่ส่วนมากก็เป็นเพียง structure data ขนาดที่แนวโน้มของ Big Data ระบุว่าข้อมูลเกือบ 80% จะเป็น unstructure data ขณะที่ข้อมูลที่เก็บอยู่ในบ้านเราจะมีเพียงเล็กน้อย หน่วยงานที่จะมีข้อมูลมากกว่า 10 TB ก็หาค่อนข้างยาก หน่วยงานที่มีข้อมูลมากๆก็จะเป็นข้อมูล Transaction ของลูกค้าเช่น CDR ของบริษัทด้าน Telecom เรายังไม่มีผู้ให้บริการที่ให้ข้อมูล unstructure เช่น Web Crawler, Social Network ที่ให้เราดึงข้อมูลขนาดใหญ่มาวิเคราะห์ได้ แต่การจะใช้ประโยชน์จาก Big Data ได้อย่างเต็มที่ส่วนหนึ่งก็คือการต้องนำข้อมูลภายนอกองค์กร (External Data) เหล่านี้มาช่วยในการวิเคราะห์ คาดการณ์ต่างๆ เราจะเห็นได้ว่าเราสามารถไปดึงข้อมูลจากต่างประเทศที่เป็น unstructure หรือ semi-structure ขนาดใหญ่เช่น ข้อมูล Twitter หรือข้อมูลจากYelp มาได้ หรือแม้แต่ข้อมูลจาก Web Crawler ที่มีขนาดมากกว่า 500 TB ก็ยังมีให้บริการ ขณะที่บ้านเราไม่มีบริการข้อมูลเหล่านี้ การทำ Big Data ให้ได้ประโยชน์อย่างเต็มที่ ต้องมีข้อมูลขนาดใหญ่ๆที่ว่าแต่บ้านเรายังขาดอยู่ คงต้องใช้เวลาอีกหลายปีจึงจะได้ข้อมูลที่ดีขึ้น

ขาดบุคลากรด้าน Big Data

ปัญหานี้ถ้าพูดไปเป็นเป็นคลาสสิคในวงการไอที ไม่ว่าเทคโนโลยีใหม่อะไรเข้ามาบ้านเรามักจะขาดคนไม่ว่าจะเป็นด้าน Mobile Developer, Cloud Computing Expert หรือ Enterprise Architect แต่ปัญหาการขาดบุคลากรด้าน Big Data เป็นปัญหาทั่วโลก เพราะสำนักวิจัย Gartner คาดการณ์ว่าจะมีความต้องการบุคลากรด้านนี้ทั่วโลกถึง 4.4 ล้านตำแหน่งในปี 2015 และเป็นตำแหน่งงานทึ่สหรัฐอเมริกาถึง 1.9 ล้านตำแหน่ง แต่ปรากฎว่าจะมีเพียง 1/3 เท่านั้นที่หาบุคลากีที่มีทักษะตรงกับที่ต้องการได้ งานทางด้าน Big Data หนึ่งตำแหน่งจะสร้างงานตำแหน่งอื่นๆนอกกลุ่มไอทีได้ถึงสามตำแหน่ง การขาดแคลนบุคลากรทางด้านนี้ทำให้หน่วยงานต้องเร่งพัฒนาบุคลากรและหาวิธีการดึงดูดบุคลากรเข้ามาในหน่วยงาน เทคโนโลยี Big Data ต้องการบุคลากรที่มีทักษะใหม่ๆในการบริหารจัดการข้อมูลที่กำลังเปลี่ยนแปลง ต้องรู้ถึงการใช้เทคโนโลยีใหม่ๆ และต้องการบุคลากรที่มีความสามารถในการวิเคราะห์ข้อมูลและคาดการณ์เรื่องต่างๆได้ ซึ่งบ้านเรายังขาดบุคลากรเหล่านี้อีกมาก

ขาดเทคโนโลยีสำหรับโครงสร้างข้อมูลแบบใหม่

การเข้ามาของ Big Data ทำให้หน่วยงานจะต้องลงทุนโครงสร้างพื้นฐานด้านข้อมูลเพิ่มเติม ฐานข้อมูลแบบ RDBMS เดิมไม่สามารถจะรองรับ unstructure data ได้ ทาง Gartner เองก็ระบุว่า 75% ของ Data Warehouse ในปัจจุบันจะไม่สามารถรองรับข้อมูลในเรื่องของ Velocity และ Variety ได้ การเข้ามาของ unstructure data ขนาดใหญ่ทำให้หน่วยงานต้องนำเทคโนโลยีใหม่อย่าง Hadoop หรือ No SQL เข้ามาใช้ โดย Hadoop ก็เป็นหนึ่งในเทคโนโลยีที่น่าสนใจที่สุดสำหรับเก็บข้อมูลหลายร้อย TB ซึ่งจากการสำรวจองค์กร 86% ทั่วโลกก็ยังไม่สามารถบริหารจัดการข้อมูลได้อย่างเหมาะสม นอกจากนี้องค์กรก็อาจต้องลงทุนทางด้าน BI & Analytics Tool เพื่อจะได้ประโยชน์จากการใช้ข้อมูลต่างๆทั้งแบบ Structure และ unstructure ที่อยู่ภายในและภายนอกองค์กร  ซึ่งในปัจจุบันมีหน่วยงานเพียง 13% ที่มีเครื่องมือแบะสามารถทำ Predictive Analytics ได้

จากที่กล่าวมาทั้งหมดนี้ จะเห็นว่าการประยุกต์ใช้ Big Data เป็นเรื่องที่ยากและซับซ้อนกว่าที่เราคิด และเป็นเรื่องที่ท้าทายสำหรับองค์กรต่างๆทั่วโลก แม้จะบอกว่าบ้านเรายังไม่พร้อม แต่เชื่อว่าถ้าเราตั้งใจทำกันจริงๆ ปรับความเข้าใจ สร้างข้อมูลให้มากขึ้น พัฒนาบุคลากร และพัฒนาโครงสร้างพื้นฐานด้านข้อมูล บ้านเราแข่งกับเขาได้แน่

ธนชาติ นุ่มนนท์

IMC institute

ตุลาคม 2557

Data Scientist กับเทคโนโลยี Big Data: Hadoop, MapReduce, R และ Mahout

ได้เขียนเรื่อง Data Scientist  ไปหลายครั้ง (เช่น Big Data Analytics กับความต้องการ Data Scientist ตำแหน่งงานที่น่าสนใจในปัจจุบัน)  และก็ได้หยิบยกบทความของ ดร.อธิป อัศวานันท์ เรื่อง “ความเข้าใจที่ผิดๆ เกี่ยวกับ Big Data และ Analytics  ทั้งตอนที่ 1 และ ตอนที่ 2”  มาให้อ่านกัน ก็หวังว่าเราคงเริ่มมีความเข้าใจมากขึ้นระหว่าง  Programmer, BI Analyst และ  Data Scientist  ที่ผมพยายามบอกว่า Data Scentist ต้องมีความรู้ทางด้านคณิตศาสตร์และ Predictive Algorithm

คนที่จะเป็น Data Scientist  จะต้องมีความสามารถอยู่ในสามด้านก็คือ  1)  Programming  กล่าวคือจะต้องมีทักษะการโปรแกรมที่ดีเช่นสามารถเขียนโปรแกรมอย่าง Map/Reduce, R หรือ  Hive  ได้ 2) มีความรู้ด้าน Math และ  Statistics คือจะต้องเข้าใจการรวบรวมและวิเคราะห์ข้อมูล มีความเข้าใจเรื่อง  Algorithm โดยเฉพาะด้าน Predictive Analytics สำหรับทำ Machine Learning ได้ และ 3) ต้องมีความเข้าใจเรื่องธุรกิจที่จะมาวิเคราะห์ข้อมูล เพื่อจะได้ทราบว่ารูปแบบของข้อมูลเป็นอย่างไร หรือจะต้องการข้อมูลใดสำหรับการวิเคราะห์และการคาดการณ์ ซึ่งทักษะเหล่านี้ได้สรุปรวมไว้ในรูปที่ 1

Screenshot 2014-10-20 09.35.54รูปที่  1 ทักษะของ Data Scientist 

จริงๆแล้วการทำ Predictive Analytics ไม่ใช่เรื่องใหม่ แต่การคาดการณ์ต่างๆจะมีความแม่นยำและใก้ลเคียงกับความจริงมากขึ้นถ้ามีข้อมูลจำนวนมากขึ้น ดังนั้นเทคโนโลยี Big Data  จึงทำให้การคาดการณ์ต่างๆแม่นยำขึ้น และการมีข้อมูลขนาดใหญ่จะมีประโยชน์มากยิ่งขึ้นถ้าเราสามารถทำ Predictive Analytics ซึ่งเราจะเห็นได้ว่ากรณีนี้มีความแตกต่างกันกับ  Business Intelligence (BI)

  • BI คือการดู Business Insight เพื่อให้ทราบว่าข้อมูลที่ผ่านมาเป็นอย่างไร โดยนำเสนอในมุมมองต่างๆ ทั้งในรูปแบบของรายงาน กราฟ  หรือ Dashboard
  • Predictive Analytics  คือการคาดการณ์อนาคตโดยใช้โมเดลคณิตศาสตร์ที่ต้องใช้ข้อมูลจำนวนมากและอาจจะมาจากหลายแหล่ง

Screenshot 2014-10-20 09.47.12

รูปที่  2 เครื่องมือและเทคโนโลยีของ Data Science

เทคโนโลยี Big Data ทำให้ Data Scentist มีเครื่องมือที่หลากหลายขึ้น ทั้งในการเก็บข้อมูลเช่น RDBMS ในรูปแบบเดิม หรือ  NoSQL อย่าง MongoDB หรือ  unstructure storage  อย่าง Hadoop HDFS  ทั้งเครื่องมือในการถ่ายโอนข้อมูลอย่าง Sqoop หรือ  Flume และเครื่องมือหรือภาษาในการวิเคราะห์ข้อมูลอย่าง Java, R, Mahout และเนื่องจากข้อมูลในปัจจุบันส่วนใหญ่เป็น  unstructure data  ก็เลยทำให้ Hadoop กลายเป็นเครื่องมือที่น่าสนใจที่สุดของ Big Data เพราะนอกจากสามารถที่จะเก็บข้อมูลขนาดใหญ่ได้แล้ว ยังมีเครื่องมือที่ช่วยในการวิเคราะห์ข้อมูลที่หลากหลาย

Screenshot 2014-10-20 09.53.48

รูปที่  3 หน้าที่ของ Data Science

สุดท้ายเพื่อให้เข้าใจว่า Data Scientist ทำอะไรจากเทคโนโลยีต่างๆที่มีอยู่ ลองพิจารณาดูรูปที่ 3 จะเห็นว่าจะมีการกล่าวถึงเทคโนโลยีต่างๆ เช่นเครื่องมือในการรวบรวมข้อมูลที่ทำ ETL เครื่องมือในการเก็บข้อมูลอย่าง Hadoop เครื่องมือในการวิเคราะห์ข้อมูลอย่าง R, Hive, Pig, Java, Mahout  เครื่องมือในการแสดงผลอย่าง Dashboard, Web App และ เครื่องมือในการพยากรณ์ข้อมูลที่ทำ Machine Learning  จากรูปจะเห็นได้ว่าบทบาทของ Data Scientist จะคาบเกี่ยวกับบทบาทของ Data Architecture/Management และ Analytics โดย Data Sceintist จะต้องใช้เครื่องมือต่างๆทั้ง Hadoop, R, MapReduce หรือ Mahout  ในการวืเคราะห์ข้อมูล รวมถึงมีการใช้  Algorithm สำหรับ Machine Learning

  • R เป็๋นภาษาที่สามารถใช้ในการวิเคราะห์ข้อมูลได้
  • Mahout เป็นเครื่องมือที่ใช้ในการวิเคราะห์  Large Scale Data  บน  Hadoop  โดย Mahout จะมี Library  สำหรับ Predictive Analytics สามด้านคือ Recommender, Clustering และ  Classification

การพัฒนาหรือหา Data Scientist คงไม่ใช่ง่าย และไม่สามารถทำได้โดยระยะเวลาอันสั้น จากข้อมูลการสำรวจส่วนใหญ่ก็จะต้องเป็นที่มีพื้นฐานทางคณิตศาสตร์อย่างดี โลกของ Big Data กำลังมา ตรงนี้น่าจะเป็นโอกาสอันดีของนักคณิตศาสตร์ และจำเป็นอย่างยิ่งที่บ้านเราจะต้องเร่งพัฒนาคนทางด้านนี้ แต่อย่ามองว่าเป็นเรื่องง่าย เพราะการเรียนคณิตศาสตร์ไม่ได้ทำกันได้เพียงสัปดาห์เดียว การจะเรียนปริญญาเอกก็ต้องใช้เวลาเป็นปีๆ ดังนั้นการที่จะสร้าง Data Scentist ทีดีก็ต้องบ่มเพราะเป็นปีๆเช่นกัน

ธนชาติ นุ่มนนท์

IMC Institute

ตุลาคม 2557