เมื่อวานนี้ทาง IMC Institute จัดงานฟรีสัมมนาร่วมกับ Computerlogy ภายใต้หัวข้อ Big Data: From Data to Business Insight โดยมีผู้เข้าร่วมสัมมนาประมาณ 100 คน หัวข้อที่ผมไปบรรยายในงานสัมมนานี้คือ Forecast of Big Data Trends เพื่อให้ผู้เข้าร่วมสัมมนาทราบถึงแนวโน้มของ Big Data โดยมี Slide ที่ใช้ในการบรรยายดังนี้
การบรรยายเริ่มต้นโดยการบรรยายหลักการของ Big Data ทั้งนี้เพราะหลายๆคนยังเข้าใจผิดคิดว่า Big Data คือการที่มีข้อมูลดิจิตอลขนาดมหาศาล แต่จริงๆแล้วเรามักจะนิยามความหมายของ Big Data ด้วยคำย่อว่า 3V คือ Volume, Velocity และ Variety
- Volume: คือมืจำนวนข้อมูลมากเกินกว่าระบบฐานข้อมูลแบบเดิมๆจะสามารถที่จะจัดการได้
- Velocity: คือข้อมูลจะมีการเปลี่ยนแปลงอย่างรวดเร็ว เช่นข้อมูลจาก Social Media ข้อมูลการซื้อขาย ข้อมูล Transaction การเงินหรือการใช้โทรศัพท์ หรือข้อมูลจาก Sensor
- Variety: คือข้อมูลจะมีหลากหลายรูปแบบทั้ง Structure และ Unstructure ซึ่งอาจจะอยู่ในรูปทั้ง RDBMS, text, XML, JSON หรือ Image
ดังนั้นการจัดการ Big Data จึงจำเป็นต้องใช้ระบบการเก็บข้อมูลหรือการประมวลในรูปแบบอื่นๆที่อาจไม่ใช่เพียงแค่ฐานข้อมูล RDBMS แบบเดิมๆ ซึ่งเทคโนโลยีที่นำมาใช้ในปัจจุบันมีทั้ง Hadoop, NoSQL, NewSQL และ MPP เราจึงเห็นได้ว่า แนวโน้มการลงทุนไอทีขององค์กรต่างๆจึงมีการลงทุนเพื่อปรับปรุง Information Infrastructure มากขึ้น เพื่อให้รองรับกับการใช้งานด้าน Big Data
คราวนี้มาถึงการคาดการณ์แนวโน้มของ Big Data ที่ผมได้รวบรวมมาจากแหล่งต่างๆ ผมได้สรุปมา 10 เรื่องดังนี้
1) Hadoop will gain in stature
ตลาด Hadoop ซึ่งเป็นซอฟต์แวร์ Open Source ที่ใช้ในการเก็บและประมวลผลข้อมูลแบบ Unstructure ขนาดใหญ่จะโตขึ้นเรื่อยๆ โดยองค์กรต่างๆจะมีการลงทุนเพื่อใช้งาน Hadoop คู่กับฐานข้อมูล RDBMS แบบเดิม และ NoSQL โดยทาง IDC ระบุว่าในปี 2012 มีการลงทุนด้านซอฟต์แวร์ Hadoop สูงถึง $209 ล้านเหรียญสหรัฐหรือคิดเป็น 11% ของมูลค่าตลาดด้าน Big Data
2) SQL holds biggest promise for Big Data
องค์กรส่วนใหญ่ยังใช้ภาษา SQL ในการประมวลผล สังเกตุได้จากการลงทุนทางเทคโนโลยีด้าน Big Data ร้อยละ 64 ขององค์กรก็ยังเป็นการจัดหาฐานข้อมูล RDBMS แบบเดิม มีเพียง 28% ที่จัดหา Hadoop/MapReduce ส่วนหนึ่งก็เป็นเพราะภาษาที่ใช้ในการประมวลผลข้อมูลของ Hadoop ยังเป็น MapReduce ซึ่งยากต่อการพัฒนา จึงทำให้ผู้พัฒนา OpenSource ของ Hadoop ต้องพัฒนาเครื่องมือใหม่ๆอย่าง Hive, Impala หรือ Jaql เพื่อให้ผู้ใช้สามารถใช้ภาษา SQL ได้ ทำให้เป็นโอกาสที่ดีสำหรับผู้ที่ต้องการประมวลผล Big Data ที่จะสามารถประมวลผลได้ง่ายและรวดเร็วขึ้น
3) Big Data vendor consolidation begins
ในปัจจุบันเรามีผู้ผลิตซอฟต์แวร์ ฮาร์ดแวร์และผู้ให้บริการ Big Data อยู่หลายราย โดยเฉพาะผู้ที่ทำด้าน Hadoop มีคนนำ Open Source ตัวนี้มาพัฒนาต่อยอดหลายรายและทำเป็นหลาย distribution จนเป็นเรื่องยากที่ผู้ใช้จะเลือก distribution ที่เหมาะสม การคาดการณ์เรื่องหนึ่งคือเราอาจเห็นจำนวนผู้ผลิตซอฟต์แวร์เหล่านี้น้อยลง จะเหลือเพียงไม่กี่ราย รายเล็กๆที่น่าสนใจอย่าง CloudEra ก็จะต้องมาแข่งกับบริษัทใหญ่ๆอย่าง Microsoft หรือ IBM
4) Internet of things grow
การเข้ามาของอุปกรณ์ที่เป็น Internet of Things เช่น Wearable Devices, Smart TV จะทำให้ข้อมูลโตขึ้นเรื่อยๆ โดยมีการคาดการณ์ว่าภายในปี 2017 จำนวน Internet of Things จะแซงหน้าจำนวนรวมของ PC, Smartphone และ Tablet
5) More data warehouses will deploy enterprise data hubs
Data warehouses จะมีการติดตั้ง Enterprise Data Hubs โดยเป็นการรวบรวมข้อมูลจากแหล่งต่างๆทั้งภายในและภายนอกองค์กร โดยจะมีรูปแบบข้อมูลที่หลากหลายทั้งเป็น Structure และ Unstructure โดยจะมีการใช้เทคโนโลยี Hadoop ที่ประหยัดค่าใช้จ่ายกว่าเทคโนโลยีอื่นมาทำหน้าที่เป็น Data Hub และช่วยทำหน้าที่ OffLoad ETL ข้อมูลที่ไม่สำคัญมากใน Data Warehouse
6) Business intelligence (BI) will be embedded on smart systems
การคาดการณ์อีกเรื่องหนึ่งคือแนวโน้มที่เราจะเห็นอุปกรณ์หรือระบบต่างๆมีระบบ Business Intelligence (BI) ฝั่งอยู่ในระบบ เช่นระบบการขายต่อไปเซลล์ขายสินค้าอาจสามารถที่จะดูข้อมูลและวิเคราะห์ลูกค้าผ่านอุปกรณมือถือได้เลยโดยเลยโปรแกรม BI ผ่าน Cloud Services
7) Less relational SQL, more NoSQL
เนื่องจากข้อมูลจะมีความหลากหลายมากขึ้น ดังนั้นการวิเคราะห์ข้อมูลที่เป็นโครงสร้างแบบเดิมโดยใช้ภาษา SQL จึงอาจไม่เพียงพอ ทำให้เทคโนโลยีที่เป็น NoSQL หรือที่เรียกว่า Not Only SQL จะเข้ามาใช้ร่วมกับฐานข้อมูล RDBMS แบบเดิม โดยเราจะเริ่มเห็นซอฟต์แวร์ใหม่ๆเหล่านี้อาทิเช่น MongoDB ถูกนำมาใช้มากขึ้น
8) Hadoop will shift to real-time processing
Hadoop เวอร์ชั่น 1.x จะมีข้อจำกัดในเรื่อง Namenode ทำให้ขยายขนาดเกิน 4,000 เครื่องไม่ได้ และมีข้อจำกัดในเรื่องการประมวลผลข้อมูลบน HDFS ที่เป็น MapReduce ที่ต้องรันแบบ Batch ไม่ใช่ Realtime แต่ใน Hadoop เวอร์ชั่น 2.x ได้มีการปรับปรุงนำ Data Operating System อย่าง YARN เข้ามาทำให้รูปแบบประมวลมีมากกว่า MapReduce โดยสามารถใช้ NoSQL หรือ Stream อย่าง Python ที่เป็น Realtime ได้
9) Big Data as a Service (BDaaS)
ประเด็นสำคัญหนึ่งในการประมวลผลข้อมูล Big Data คือการลงทุนจัดหาเครื่องคอมพิวเตอร์ Server จำนวนมากเข้าใช้งาน ซึ่งต้องลงทุนสูงและอาจไม่คุ้มค่า จึงเริ่มมีการให้บริการการประมวลผลบน Cloud Service มากขึ้น ตัวอย่างเช่นการใช้ Hadoop บน Cloud ที่ในปัจจุบันมีผู้ให้บริการรายหลายอาทิเช่น Amazon EMR, Microsoft Azure HDInsight, IBM Bluemix และ Qubole
10) External data is as important as internal data
ในปัจจุบันองค์กรจะมีข้อมูลที่ต้องนำมาพิจารณามากขึ้น โดยจำเป็นจะต้องให้ความสำคัญกับข้อมูลจากภายนอกองค์กร อาทิเช่นข้อมูลจาก Social Media พอๆกับการให้ความสำคัญกับข้อมูลในองค์กร เพื่อนำข้อมูลต่างๆเหล่านี้มาวิเคราะห์เชิงธุรกิจ
สุดท้ายคงต้องจบที่ว่าทาง IMC Institute และ Computerlog ยังมีหลักสูตรอบรมเรื่อง Big Data ใหกับผู้บริหารในวันที่ 1-2 ตุลาคมนี้เรื่อง Big Data in Action for Senior Management ซึงผู้สนใจสามารถเข้าไปดูรายละเอียดได้ที่ www.imcinstitute.com/bigdatamgmt
ธนชาติ นุ่มนนท์
IMC Institute
กันยายน 2557
3 thoughts on “การคาดการณ์แนวโน้มของ Big Data”