เทคโนโลยีด้าน Big Data โดยเฉพาะ Hadoop เป็นเรื่องที่คนให้ความสนใจอย่างมาก และเริ่มมีการคาดการณ์กันว่าในอนาคตองค์กรต่างๆแทบทุกแห่งก็จะต้องมีการใช้งานระบบ Hadoop ในต่างประเทศให้ความสำคัญกับการอบรมด้านนี้มาก ซึ่งทางผมเองภายใต้สถาบันไอเอ็มซีก็ได้จัดการอบรมเทคโนโลยีให้กับผู้เข้าอบรมจำนวนมากในรอบสามปีที่ผ่านมาโดยมีจำนวนมากหนึ่งพันคน และสามารถที่จะ Download Slide การอบรมด้านนี้ของทางสถาบันได้ที่ www.slideshare.net/imcinstitute
ประเด็นสำคัญเรื่องหนึ่งที่มักจะถูกถามจากผู้เข้าอบรมว่า เราสามารถที่จะหา Hadoop Cluster จากไหนมาทดลองเล่น จริงๆเราสามารถจะฝึกใช้ Hadoop ได้โดยติดตั้งระบบต่างๆดังนี้
1) การใช้ Hadoop Sandbox
Distribution หลายรายเช่น Cloudera, Hortonworks หรือ MapR จะมี Hadoop Sandbox ให้เราทำลองใช้งานได้ แต่ระบบนี้จะเป็นเครื่องเพียงเครื่องเดียวที่มี Image ให้เรารันผ่าน Virtual Box, VMWare หรือ KVM โดยเราอาจต้อง Download Image ขนาดใหญ่ประมาณ 4-6 GByte ลงมาเก็บไว้ก่อน ทั้งนี้เราสามารถจะ Download Image ของ Hadoop Distribution ต่างๆได้ที่นี้
นอกจากนี้ล่าสุด Cloudera ยังสามารถรันผ่าน Docker โดยมีขั้นตอนการติดตั้ง Docker Image ดังนี้ >> การติดตั้ง Cloudera Quickstart บน Docker
2) การติดตั้ง Hadoop Cluster เอง
เรายังสามารถที่จะติดตั้ง Apache Hadoop Cluster ได้เอง ซึ่งวิธีนี้จะต่างกับการใช้ Sandbox เพราะสามารถใช้งานได้จรีง และผมเองได้เคยเขียนแบบฝึกหัดให้ทดลองติดตั้งในหลายๆระบบดังนี้
- การติดตั้งผ่าน Virtual Machine หรือ Local Server
- การติดตั้งโดยใช้ Amazon EC2
- การติดตั้งโดยใช้ Virtual Server ของ Google Cloud Platform
นอกจากนี้ผมยังมีแบบฝึกหัดให้ติดตั้ง Cloudera Cluster บน Amazon EC2 ซึ่งจะมีขั้นตอนการติดตั้งดังนี้ >> แบบฝึกหัดติดตั้ง Cloudera Cluster
3) การใช้ Hadoop as a Service
กรณีนี้เป็นการใช้ Hadoop Service ที่อยู่บน Cloud แบบนี้เหมาะที่จะใช้ในการประมวลผล แต่ไม่เหมาะจะใช้เก็ยข้อมูลบน HDFS เนื่องจากระบบ Hadoop as a Service จะไม่สามารถ Stop ได้ และมีค่าใช้จ่ายต่อชั่วโมงค่อนข้างสูง จึงเหมาะกับใช้ในการประมวลผลข้อมูลขนาดใหญ่ที่อยู่ใน Cloud Storage หรือข้อมูลบนอินเตอร์เน็ตแบบชั่วควาร
ผมเองมีแบบฝึกหัดทีให้ทดลองใช้ Hadoop แบบนี้สองระบบตือ
ผมหวังว่าบทความสั้นๆที่เขียนมานี้ คงเป็นจุดเริ่มต้นให้ทุกท่านได้เรี่มใช้ Hadoop ได้ วันนี้ไม่ใช่แค่มาศึกษาว่าอะไรคือ Hadoop แต่มันถึงเวลาที่ต้องลงมือปฎิบัตืแล้ว มิฉะนั้นเราคงก้าวตามเรื่อง Big Data ไม่ทัน
ธนชาติ นุ่มนนท์
IMC Institute
กุมภาพันธ์ 2559