แนะนำ Big Data
Big Data เป็นอีกหัวข้อหนึ่งที่เริ่มมีการกล่าวถึงกันอย่างกว้างขวาง ซึ่งถ้าเราดูจาก Google Trends ก็จะเห็นได้ว่าทั่วโลกก็เริ่มให้ความสนใจในการค้นคำว่า Big Data ตีคู่มากับคำว่า Cloud Computing แล้ว ส่วนหนึ่งก็อาจเป็นเพราะว่าข้อมูลในโลกของอินเตอร์เน็ตเรื่มมีเยอะขึ้น โดยเฉพาะข้อมูลจาก Social Network ที่ผู้คนต่างเข้ามาอัพเดทข้อมูลตลอดเวลา นอกจากนี้ราคาของ Storage ก็ถูกลงทำให้คนเริ่มที่จะเก็บข้อมูลเยอะขึ้นเรื่อยๆ ซึ่งทาง EMC/IDC ได้ทำตาดการณ์ว่าในปี 2015 จะมีข้อมูลดิจิตอลรวมกันประมาณ 7,910 ExaBytes
หลายๆคนยังเข้าใจว่า Big Data คือการที่มีข้อมูลดิจิตอลขนาดมหาศาล แต่จริงๆแล้วเรามักจะนิยามความหมายของ Big Data ด้วยคำย่อว่า 3V คือ Volume, Velocity และ Variety
- Volume: คือมืจำนวนข้อมูลมากเกินกว่าระบบฐานข้อมูลแบบเดิมๆจะสามารถที่จะจัดการได้
- Velocity: คือข้อมูลจะมีการเปลี่ยนแปลงอย่างรวดเร็ว เช่นข้อมูลจาก Social Media ข้อมูลการซื้อขาย ข้อมูล Transaction การเงินหรือการใช้โทรศัพท์ หรือข้อมูลจาก Sensor
- Variety: คือข้อมูลจะมีหลากหลายรูปแบบทั้ง Structure และ Unstructure ซึ่งอาจจะอยู่ในรูปทั้ง RDBMS, text, XML, JSON หรือ Image
ดังนั้นการจัดการ Big Data จึงจำเป็นต้องใช้ระบบการเก็บข้อมูลหรือการประมวลในรูปแบบอื่นๆที่อาจไม่ใช้เพียงแค่ฐานข้อมูล RDBMS แบบเดิมๆ ซึ่งหากเราพิจารณา Ecosystems ของ Big Data เราจะสามารถจะเห็นได้ว่ามีความเกี่ยวข้องกับโครงสร้างพื้นฐานไอทีหลายๆด้านดังรูป
เทคโนโลยี Hadoop
ซอฟต์แวร์ที่สำคัญตัวหนึ่งที่มีการนำมาใช้กันมาในระบบ Big Data คือ Hadoop เพราะ Hadoop เป็น Open Source Technology ที่จะทำหน้าที่เป็น Distributed Storage ที่สามารถเก็บข้อมูลขนาดใหญ่ที่เป็น Unstructure และนำมาประมวลผลได้ โดยองค์ประกอบหลักๆของ Hadoop จะประกอบด้วย Hadoop Dustributed File System (HDFS) ที่ทำหน้่าที่เป็น Storage และ MapReduce ที่ใช้ในการพัฒนาโปรแกรมประมวลผล ทั้งนี้โครงสร้างด้าน Hardware ของ Hadoop จะใช้เครื่อง Commodity Server จำนวนมากต่อเป็น Cluster กัน
ในปัจจุบันหลายๆองค์กรจะใช้ Hadoop Technology ในการพัฒนา Big Data อาทิเช่น Facebook, Yahoo และ Twitter โดยจะมีเครื่อง Server 9yh’c9j 5 -1,000 เครื่อง ทั้งนี้ขึ้นอยู่กับขนาดข้อมูล นอกจากนี้ Technology Vendor ต่างๆอาทิเช่น Oracle, IBM, EMC หรือแม้แต่ Microsoft ต่างก็นำ Hadoop มาใช้ในเทคโนโลยีของตัวเองในการพัฒนาผลิตภัณฑ์ทางด้าน Big Data
ทั้งนี้ Hadoop จะไม่ได้นำมาแทนที่ระบบฐานข้อมูลเดิมแต่เป็นการใช้งานร่วมกันทั้ง Database แบบเดิมที่เป็น Structure Data และการนำ Unstructure Data ขององค์กรที่อาจเก็บไว้ในระบบอย่าง Hadoop เข้ามาพิจารณาร่วมกับข้อมูลอื่นๆภายนอกเช่น Facebook แล้วนำมาวิเคราะห์ข้อมูลโดยใช้เครื่องมืออย่าง Business Intelligence ดังรูป
ซึ่งจากการสำรวจของ Unisphere Research เมื่อพฤษภาคม 2013 พบว่าอุตสาหกรรมที่มีความสนใจจะพัฒนาเรื่อง Big Data เป็นอันดับต้นๆคือ อุตสาหกรรมค้าปลีก อุตสาหกรรมธนาคารและประกันภัย อุตสาหกรรมโทรคมนาคม ซึ่งใช้ในการวิเคราะห์ลูกค้าและข้อมูลการตลาด นอกจากนี้หลายหน่วยงานก็มีการนำข้อมูลด้าน Social Media มาทำการวิเคราะห์เพื่อหาข้อมูลต่างๆ
การพัฒนา Big Data ที่สำคัญประการหนึ่งก็คือการปรับปรุงโครงสร้างระบบไอทีขององค์กรด้านข้อมูล (Information Infrastucture) รวมถึงการพัฒนาบุคลากรให้เข้าใจถึงเทคโนโลยีด้าน Big Data ใหม่ๆอย่าง Hadoop หรือ in-Momery Database และต้องมีการวางแผนในการนำข้อมูลทั้ง Structure และ Unstructure จากภายในและภายนอกองค์กรมาใช้งาน รวมถึงการที่จะต้องหาผู้เชี่ยวชาญทางด้านข้อมูลที่เป็น Data Scientist มาร่วมทำงาน
การพัฒนาองค์ความรู้ด้าน Big Data ของสถาบัน IMC
IMC Institute ให้ความสำคัญกับเทคโนโลยี Big Data โดยที่ผ่านมาได้เปิดหลักสูตรอบรมในหลายหลักสูตรจำนวนผู้เรียนรวมกันมากกว่า 100 โดยมีหลักสูตรที่น่าสนใจคือ
- Big Data using Hadoop Workshop
- Big Data on Public Cloud Computing
- Big Data Programming using Java Technology
โดยในวันที่ 18 ตุลาคมนี้ ทางสถาบัน IMC จะเปิดหลักสูตร Big Data on Public Cloud Computing ซึ่งเป็นการสอนหลักการของ Big Data ที่สามารถใช้งานได้จริงกับ Public Cloud อย่าง Amazon Web Services ซึ่งผู้เรียนจะได้ศึกษาการพัฒนา Big Data ทั้งส่วนที่เป็น Map/Reduce, Hive, Pig และ HBase รวมถึงการนำข้อมูลขนาดใหญ่เข้า Amazon S3
อนึ่งเมื่อเร็วๆนี้ ทางสถาบัน IMC ได้จัดสัมมนาหัวข้อ Business Intelligence in a Big Data World ร่วมกับ Oracle และ PwC โดยมีหัวข้อที่น่าสนใจหลายๆเรื่อง ซึ่งสามารถที่จะดู Slide งานสัมมนานี้ได้ดังนี้
- Big Data: Winning in the Digital World; Dr. Thanachart Numnonda https://dl.dropboxusercontent.com/u/12655380/BigDataThanachart.pdf
- Big Data Hadoop: Introduction Session; Mr. Danairat Thanabodithammachari https://dl.dropboxusercontent.com/u/12655380/BigDataDanairat.pdf
- Business Intelligence for Success and Case Study; Ms. Pirata Phakdeesattayaphong (PwC) https://dl.dropboxusercontent.com/u/12655380/BigDataPwC.pdf
- How Big Data Information Discovery Provides Valuable Insights, Ms. Tidaporn Santimanawong (Oracle) https://dl.dropboxusercontent.com/u/12655380/BigDataTida.pdf
ธนชาติ นุ่มมนท์
IMC Institute
ตุลาคม 2556