BigDatainAction

เมื่อวานนี้ทาง IMC Institute  จัดงานฟรีสัมมนาร่วมกับ Computerlogy ภายใต้หัวข้อ Big Data: From Data to Business Insight โดยมีผู้เข้าร่วมสัมมนาประมาณ 100  คน หัวข้อที่ผมไปบรรยายในงานสัมมนานี้คือ  Forecast of Big Data Trends เพื่อให้ผู้เข้าร่วมสัมมนาทราบถึงแนวโน้มของ Big Data โดยมี Slide ที่ใช้ในการบรรยายดังนี้

ฺBigData-Seminar

การบรรยายเริ่มต้นโดยการบรรยายหลักการของ Big Data ทั้งนี้เพราะหลายๆคนยังเข้าใจผิดคิดว่า Big Data คือการที่มีข้อมูลดิจิตอลขนาดมหาศาล แต่จริงๆแล้วเรามักจะนิยามความหมายของ Big Data ด้วยคำย่อว่า 3V คือ Volume, Velocity และ Variety

  • Volume: คือมืจำนวนข้อมูลมากเกินกว่าระบบฐานข้อมูลแบบเดิมๆจะสามารถที่จะจัดการได้
  • Velocity: คือข้อมูลจะมีการเปลี่ยนแปลงอย่างรวดเร็ว เช่นข้อมูลจาก Social Media ข้อมูลการซื้อขาย ข้อมูล Transaction การเงินหรือการใช้โทรศัพท์  หรือข้อมูลจาก Sensor
  • Variety: คือข้อมูลจะมีหลากหลายรูปแบบทั้ง Structure และ Unstructure ซึ่งอาจจะอยู่ในรูปทั้ง RDBMS, text, XML, JSON หรือ Image

ดังนั้นการจัดการ Big Data จึงจำเป็นต้องใช้ระบบการเก็บข้อมูลหรือการประมวลในรูปแบบอื่นๆที่อาจไม่ใช่เพียงแค่ฐานข้อมูล RDBMS แบบเดิมๆ ซึ่งเทคโนโลยีที่นำมาใช้ในปัจจุบันมีทั้ง Hadoop, NoSQL, NewSQL และ MPP เราจึงเห็นได้ว่า แนวโน้มการลงทุนไอทีขององค์กรต่างๆจึงมีการลงทุนเพื่อปรับปรุง Information Infrastructure มากขึ้น เพื่อให้รองรับกับการใช้งานด้าน Big Data

คราวนี้มาถึงการคาดการณ์แนวโน้มของ Big Data ที่ผมได้รวบรวมมาจากแหล่งต่างๆ ผมได้สรุปมา 10 เรื่องดังนี้

1) Hadoop will gain in stature 

ตลาด  Hadoop  ซึ่งเป็นซอฟต์แวร์ Open Source ที่ใช้ในการเก็บและประมวลผลข้อมูลแบบ  Unstructure  ขนาดใหญ่จะโตขึ้นเรื่อยๆ โดยองค์กรต่างๆจะมีการลงทุนเพื่อใช้งาน  Hadoop  คู่กับฐานข้อมูล  RDBMS แบบเดิม และ  NoSQL โดยทาง IDC ระบุว่าในปี 2012  มีการลงทุนด้านซอฟต์แวร์ Hadoop สูงถึง $209 ล้านเหรียญสหรัฐหรือคิดเป็น  11% ของมูลค่าตลาดด้าน Big Data

2) SQL holds biggest promise for Big Data

องค์กรส่วนใหญ่ยังใช้ภาษา  SQL ในการประมวลผล สังเกตุได้จากการลงทุนทางเทคโนโลยีด้าน  Big Data ร้อยละ 64 ขององค์กรก็ยังเป็นการจัดหาฐานข้อมูล RDBMS แบบเดิม มีเพียง 28%  ที่จัดหา  Hadoop/MapReduce  ส่วนหนึ่งก็เป็นเพราะภาษาที่ใช้ในการประมวลผลข้อมูลของ  Hadoop ยังเป็น MapReduce ซึ่งยากต่อการพัฒนา   จึงทำให้ผู้พัฒนา OpenSource  ของ Hadoop ต้องพัฒนาเครื่องมือใหม่ๆอย่าง  Hive, Impala หรือ  Jaql  เพื่อให้ผู้ใช้สามารถใช้ภาษา  SQL ได้ ทำให้เป็นโอกาสที่ดีสำหรับผู้ที่ต้องการประมวลผล  Big Data  ที่จะสามารถประมวลผลได้ง่ายและรวดเร็วขึ้น

3) Big Data vendor consolidation begins

ในปัจจุบันเรามีผู้ผลิตซอฟต์แวร์ ฮาร์ดแวร์และผู้ให้บริการ  Big Data  อยู่หลายราย โดยเฉพาะผู้ที่ทำด้าน Hadoop มีคนนำ Open Source ตัวนี้มาพัฒนาต่อยอดหลายรายและทำเป็นหลาย  distribution จนเป็นเรื่องยากที่ผู้ใช้จะเลือก distribution ที่เหมาะสม การคาดการณ์เรื่องหนึ่งคือเราอาจเห็นจำนวนผู้ผลิตซอฟต์แวร์เหล่านี้น้อยลง จะเหลือเพียงไม่กี่ราย รายเล็กๆที่น่าสนใจอย่าง  CloudEra  ก็จะต้องมาแข่งกับบริษัทใหญ่ๆอย่าง  Microsoft หรือ  IBM

4) Internet of things grow

การเข้ามาของอุปกรณ์ที่เป็น  Internet of Things  เช่น  Wearable Devices, Smart TV จะทำให้ข้อมูลโตขึ้นเรื่อยๆ โดยมีการคาดการณ์ว่าภายในปี  2017  จำนวน  Internet of Things  จะแซงหน้าจำนวนรวมของ  PC, Smartphone  และ  Tablet

5) More data warehouses will deploy enterprise data hubs

Data warehouses  จะมีการติดตั้ง  Enterprise Data Hubs  โดยเป็นการรวบรวมข้อมูลจากแหล่งต่างๆทั้งภายในและภายนอกองค์กร โดยจะมีรูปแบบข้อมูลที่หลากหลายทั้งเป็น  Structure และ  Unstructure โดยจะมีการใช้เทคโนโลยี  Hadoop ที่ประหยัดค่าใช้จ่ายกว่าเทคโนโลยีอื่นมาทำหน้าที่เป็น  Data Hub และช่วยทำหน้าที่ OffLoad ETL ข้อมูลที่ไม่สำคัญมากใน Data Warehouse

 6) Business intelligence (BI) will be embedded on smart systems

การคาดการณ์อีกเรื่องหนึ่งคือแนวโน้มที่เราจะเห็นอุปกรณ์หรือระบบต่างๆมีระบบ    Business Intelligence  (BI) ฝั่งอยู่ในระบบ เช่นระบบการขายต่อไปเซลล์ขายสินค้าอาจสามารถที่จะดูข้อมูลและวิเคราะห์ลูกค้าผ่านอุปกรณมือถือได้เลยโดยเลยโปรแกรม BI ผ่าน  Cloud Services

7) Less relational SQL, more NoSQL

เนื่องจากข้อมูลจะมีความหลากหลายมากขึ้น ดังนั้นการวิเคราะห์ข้อมูลที่เป็นโครงสร้างแบบเดิมโดยใช้ภาษา  SQL  จึงอาจไม่เพียงพอ ทำให้เทคโนโลยีที่เป็น  NoSQL หรือที่เรียกว่า   Not Only SQL จะเข้ามาใช้ร่วมกับฐานข้อมูล RDBMS แบบเดิม โดยเราจะเริ่มเห็นซอฟต์แวร์ใหม่ๆเหล่านี้อาทิเช่น MongoDB  ถูกนำมาใช้มากขึ้น

8) Hadoop will shift to real-time processing

Hadoop เวอร์ชั่น 1.x จะมีข้อจำกัดในเรื่อง  Namenode ทำให้ขยายขนาดเกิน 4,000 เครื่องไม่ได้ และมีข้อจำกัดในเรื่องการประมวลผลข้อมูลบน HDFS ที่เป็น MapReduce ที่ต้องรันแบบ Batch ไม่ใช่ Realtime  แต่ใน Hadoop  เวอร์ชั่น 2.x  ได้มีการปรับปรุงนำ  Data Operating System อย่าง  YARN  เข้ามาทำให้รูปแบบประมวลมีมากกว่า MapReduce  โดยสามารถใช้ NoSQL หรือ  Stream อย่าง  Python  ที่เป็น  Realtime ได้

9) Big Data as a Service (BDaaS)

ประเด็นสำคัญหนึ่งในการประมวลผลข้อมูล Big Data คือการลงทุนจัดหาเครื่องคอมพิวเตอร์ Server จำนวนมากเข้าใช้งาน ซึ่งต้องลงทุนสูงและอาจไม่คุ้มค่า จึงเริ่มมีการให้บริการการประมวลผลบน  Cloud Service มากขึ้น ตัวอย่างเช่นการใช้ Hadoop บน  Cloud ที่ในปัจจุบันมีผู้ให้บริการรายหลายอาทิเช่น Amazon EMR, Microsoft Azure HDInsight, IBM Bluemix และ  Qubole

BDaaS

10) External data is as important as internal data

ในปัจจุบันองค์กรจะมีข้อมูลที่ต้องนำมาพิจารณามากขึ้น โดยจำเป็นจะต้องให้ความสำคัญกับข้อมูลจากภายนอกองค์กร อาทิเช่นข้อมูลจาก Social Media พอๆกับการให้ความสำคัญกับข้อมูลในองค์กร เพื่อนำข้อมูลต่างๆเหล่านี้มาวิเคราะห์เชิงธุรกิจ

สุดท้ายคงต้องจบที่ว่าทาง IMC Institute และ  Computerlog ยังมีหลักสูตรอบรมเรื่อง Big Data  ใหกับผู้บริหารในวันที่ 1-2  ตุลาคมนี้เรื่อง  Big Data in Action for Senior Management ซึงผู้สนใจสามารถเข้าไปดูรายละเอียดได้ที่ www.imcinstitute.com/bigdatamgmt

ธนชาติ นุ่มนนท์

IMC Institute

3 thoughts on “การคาดการณ์แนวโน้มของ Big Data

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s