Big Data เพื่อสร้าง Digital Disruption ในองค์กร (ตอนที่ 1)

 

การใช้ชีวิตประจำวันของผู้คนทั้งเรื่องการทำงานและเรื่องส่วนตัวล้วนแล้วแต่เป็นการสร้างข้อมูลใหม่ขึ้นมา ตั้งแต่เราตื่นนอนก็อาจมีเวลาที่เราตื่น การทานอาหารที่ใด ไปที่ไหน การทำงานก็มีข้อมูลตลอดว่าเราทำอะไร ส่งเอกสารหาใคร เขียนข้อความอะไร  หน่วยงานทุกแห่งล้วนมีข้อมูลจำนวนมากจากการทำงาน การติดต่อลูกค้า และการทำธุรกรรมต่างๆแต่ในอดีตข้อมูลเหล่านี้ไม่ถูกบันทึกในรูปแบบของดิจิทัลทั้งหมดทั้งนี้เพราะมีข้อจำกัดในเรื่องเทคโนโลยี

การเข้ามาของเทคโนโลยีใหม่อย่าง Internet of Things หรืออุปกรณ์ต่างๆ ประกอบกับการเปลี่ยนของเทคโนโลยีในการเก็บข้อมูล ที่รูปแบบข้อมูลเปลี่ยนไป และราคาที่ถูกลง รวมถึงการที่คอมพิวเตอร์มีประสิทธิภาพสูงขึ้น ทำให้เราสามารถบันทึกข้อมูลต่างๆในการทำงาน การใช้ชีวิตประจำ ลงไปได้มากขึ้น และเก็บรวบรวมเป็นข้อมูลขนาดใหญ่  (Big Data) ที่แตกต่างจากการเก็บข้อมูลเพียงแค่ในฐานข้อมูลแบบเดิมที่เป็น Database หรือ Datawarehouse ในอดีตที่จะต้องเลือกเก็บข้อมูลบางอย่าง ไม่ใช่ Big Data ที่ควรจะเป็น

เมื่อหน่วยงานมี Big Data ที่สามารถรวบรวมข้อมูลจำนวนมากลงมาในรูปแบบของ Data Lake ก็เกิดความท้าทายขึ้นมาว่า แล้วเราจะนำข้อมูลเรานั้นมาวิเคราะห์ให้เกิดประโยชน์อย่างไร กล่าวคือการทำ Big Data Analytics หลายๆหน่วยงานเข้าใจแต่เพียงว่าคือการนำมาสร้างรายงานให้เห็นข้อมูลต่างๆในรูปแบบของ Business Intelligence และไปเข้าใจว่าการทำ Digital Transformation ของหน่วยงานคือการนำเทคโนโลยีดิจิทัลมาใช้ แล้วนำรายงานที่ได้จาก Big Data มาใช้ประโยชน์

Screenshot 2017-04-22 16.33.53

จริงๆทุกวันนี้เราพูดถึงคำว่า  Digital Disruption  เราพูดคำว่า Industry 4.0 แล้วก็บอกว่า  Robot หรือ Artificial Intelligent / Machine Learning  กำลังเข้ามา เราเห็นธุรกิจหลายอย่างกำลังเปลี่ยนแปลงไป แต่เราไปคิดว่ามันก็คือแค่การใช้ดิจิทัล การหาซอฟต์แวร์เข้ามาใช้งาน หลายหน่วยงานก็พยายามจะปรับหน่วยงานไอทีในองค์กร หานักพัฒนาซอฟต์แวร์ ลงทุนฮาร์ดแวร์เพิ่มด้วยความเข้าใจว่า เราต้องทำ Digital Transformation หรือพยายามเต้นตามกระแส Industria; 4.0/ Thailand 4.0 อย่างไม่เข้าใจ

แต่จริงๆแล้วธุรกิจหลายๆอย่างที่กำลังทำให้เกิด Digital Disruption อย่าง  Amazon.com, Alibaba, Uber, AirBnb, eBay หรือ Facebook  ล้วนแต่เกิดการจากการนำ Big Data องค์กรที่ได้จากการบันทึกข้อมูลจากการทำงานมาใช้เช่นข้อมูลการทำธุรกรรมของลูกค้าในการทำธุรกรรมมาวิเคราะห์ หน่วยงานเหล่านี้ต่างมีทีมงาน  Data Scientist  จำนวนมาก มีแผนก  Data Science ที่คอยคิดวิเคราะห์ว่าจะนำ Big Data มาเปลี่ยนแปลงธุรกิจได้อย่างไร จะนำมาสร้างรูปแบบธุรกิจใหม่ๆได้อย่างไร และก็มีผลทำให้โลกเกิดการเปลี่ยนแปลงอย่างมาก ทำให้รุกคืบเข้าไปเปลี่ยนธุรกิจต่างๆ ทำให้ธุรกิจที่ไม่มีการวิเคราะห์ข้อมูลแข่งขันไม่ได้

ดังนั้นการรู้จักนำ Big Data  มาใช้ในองค์กร ที่สำคัญคือการรู้จักใช้หลักการของ Data Science มาเพื่อทำการคาดการณ์ธุรกิจ ซึ่งนอกเหนือจากจะทำให้เป็นการเพิ่มประสิทธิภาพในการทำงานแล้ว ที่สำคัญคือ Big Data อาจทำให้เกิด  Digital Disruption  อาจทำให้เห็นโอกาสทางธุรกิจใหม่ๆที่เกิดขึ้นจากการวิเคราะห์ โดยใช้หลักการของ Machine Learning หรือการนำข้อมูลมาใช้โดยทีมงาน Data Scientist แล้วอาจทำให้โอกาสใหม่ๆดังเช่นบริษัทที่กล่าวข้างต้น และก็จะทำให้หน่วยงานสามารถแข่งขันกับคู่แข่งได้

แต่ Big Data ไม่ใช่แค่เรื่องของ Business Intelligence  ไม่ใช่งานแบบเดิมๆของหน่วยงานอย่าง Datawarehouse ไม่ใช่แค่ใช้ทักษะของนักพัฒนาโปรแกรม หรือคนดูแลฐานข้อมูล แต่เป็นงานของคุนกลุ่มใหม่ที่องค์กรจะต้องกล้าและต้องสร้างทีมใหม่ขึ้นมา  ข้อสำคัญBig Data ไม่ใช่ Quick win ไม่ใช่โปรเจ็คระยะสั้น แต่มันคือการลงทุนเพื่ออนาคต ลงทุนคน ลงทุนเทคโนโลยีใหม่ แล้วต้องหวังผลระยะยาว มันคือคำถามที่ว่าผู้บริหารระดับสูงจะกล้าเสี่ยงไหม เพื่อเห็น  Digital Disruption ขององค์กร

วันนี้ผมขอเริ่มต้นแค่นี้ก่อน แล้วจะมาต่อเป็นประเด็นต่างๆทีควรทำในครั้งหน้า

ธนชาติ นุ่มนนท์

IMC Institute

เมษายน 2560

Big Data School: การอบรม On the Job Training สำหรับนักศึกษารุ่นที่สอง

 

ปีที่ผ่านมาทาง  IMC Institute  ได้เปิดอบรมหลักสูตรทางด้าน Emerging Technology ต่างๆเป็นจำนวนมาก โดยเฉพาะทางด้าน Big Data  ได้เปิดหลักสูตรต่างๆทั้งทางด้าน Hadoop, Apache Spark, Business Intellegence, Data Science, Data Visualisation, R Programming และ Machine Learning โดยอบรมคนไปร่วม 1,600  คน นอกจากนี้ก็ยังมีโครงการต่างๆทั้ง การจัดฟรีสัมมนา Big Data User Group การจัดงาน Big Data Challenge ร่วมกับสำนักงานรัฐบาลอิเล็กทรอนิกส์ (องค์การมหาชน) และการจัดอบรม Train the trainer : Big Data Analytics & Machine Learning ให้กับอาจารย์มหาวิทยาลัยต่างๆจำนวน  30 คนในช่วงเดือนกรกฎาคม

โครงการหนึ่งที่จัดให้กับนักศึกษามหาวิทยาลัยคือ Big Data School  โดยทาง IMC Institute จัดร่วมกับ ICE Solution และได้รับนักศึกษา 15 คนมาฝึกงานสองเดือนแบบ On the job training ในช่วงปิดเทอมในช่วงเดือน มิถุนายน จนถึง กรกฎาคม ปีที่ผ่านมา ซึ่งก็มีนักศึกษามาร่วมโครงการจากหลากหลายสถาบันทั้ง จุฬาลงกรณ์มหาวิทยาลัย ลาดกระบัง พระนครเหนือ มหาวิทยาลัยราชมงคลรัตนโกสินทร์ ธุรกิจบัณฑิต หรือมาไกลๆจาก มหาวิทยาลัยนครพนม มหาวิทยาลัยฟาฏอนี หรือนักศึกษาไทยในต่างประเทศอย่าง Wesleyan University

จริงๆโครงการนี้ได้แรงบันดาลใจมาจากรุ่นน้องคนหนึ่งที่เอารายการทีวีรื่อง “โรงเรียนฝึกคนหัวใจเพชร” ให้ดู ซึ่งเป็นโรงเรียนฝึกเด็กช่างไม้ในญี่ปุ่น สอนเด็กให้แกร่ง อดทน มีวินัยและใช้สมอง เห็นความยากลำบากในการเรียนกว่าจะออกมาเป็นช่างไม้ที่เก่งและมีคุณภาพ น้องเลยถามผมว่าเราทำโรงเรียนพัฒนาโปรแกรมเมอร์อย่างนี้ในเมืองไทยไหม  ผมก็เลยเริ่มคิดถึงการฝึกคน ผมอาจจะยังไม่สามารถทำโรงเรียนฝึกโปรแกรมเมอร์หัวใจเพชรได้ทันที แต่ก็นึกขึ้นมาว่าวันนี้อุตสาหกรรมไอทีในบ้านเราหาโปรแกรมเมอร์เก่งๆได้ยากโดยเฉพาะคนที่ซื่อสัตย์และตั้งใจทำงานให้กับหน่วยงาน ไม่ใช่แค่คิดหวังจะร่ำรวย นอกเหนือจากมีความรู้ ก็ต้องอดทนและมีจริยธรรมที่ดี เรามาฝึกงานเขาไหม? อาจเป็นช่วงเวลาสั้นๆ 2-3 เดือน พอฝึกงานเสร็จมาเขาจะกลับไปเรียนต่อหรือไปทำงานที่ไหนก็ตามอย่างน้อยเราก็ได้สร้างประโยชน์ให้กับสังคมบ้าง พอคิดได้อย่างนี้ก็เริ่มคุยกับเพื่อนและอาจารย์บางคนแล้วบอกว่า กลางเดือนปีที่ผ่านมาผมก็เริ่มทำ Big Data Intern School ฝึกงานนักศึกษา 15 คนให้ทำ Big Data แล้วก็กำหนดเป้าหมายสิ่งที่จะฝึกเขาดังนี้

  • ให้เรียนรู้หลักการของ Big Data และเทคโนโลยีต่างๆ
  • สามารถติดตั้งระบบ Big Data ได้ไม่ว่าจะเป็น Apache Hadoop, Cloudera, Hortonworks, Amazon EMR และ Microsoft Azure HDInsight
  • ให้ใช้ระบบ Cloud Computing อย่าง Amazon AWS และ Microsoft Azure ใที่ทางสถาบันจัดให้
  • สามารถติดตั้งระบบ NoSQL ต่างๆอย่าง Cassandra, NoSQL, MongoDB
  • เรียนรู้การประมวลข้อมูลขนาดใหญ่โดยใช้ Hive, Impala, Spark
  • สามารถที่จะดึงข้อมูลเข้าโดยใช้เทคโนโลยีอย่าง Sqoop, Flume, Kafka
  • เรียนรู้การทำ  Machine Learning โดยใช้ภาษา R, Spark MLLib หรือเครื่องมืออย่าง Azure Machine Learning
  • ทำโปรเจ็คด้าน Big Data กับบริษัท

13895023_683716961775647_7601004528023796116_n

ผมเองก็ได้อาจารย์ประจำสถาบันไอเอ็มซีหลายท่านเข้ามาช่วยอบรมนักศึกษาทั้ง 15 คน อาทิเช่น อ.โกเมษ จันทวิมล,อ.ธีรชัย หลาวทอง, อ.ชินวิทย์ ชลิดาพงศ์, อ. อารยา ฟลอเรนซ์และตัวผมเอง เข้ามาสอน  รวมถึงคุณดนุพล สยามวาลา และก็มีรุ่นพี่จาก Ice Solution สองคนเข้าช่วยเป็นพี่เลี่ยงตลอดทั้งสองเดือน นักศึกษาเองก็ได้เรียนรู้จากที่ทางอาจารย์สอนและฝึกหัดทำเรื่องต่างๆด้วยตัวเอง โดยการฝึกงานในช่วงต้นจะฝึกเน้นให้นักศึกษามีความเข้าใจเรื่องของ Big Data Technology  ต่างๆ และ Big Data Architecure จากนั้นก็จะเป็นการเน้นการใช้เทคโนโลยี Hadoop โดยให้นักศึกษาแบ่งกลุ่มกันติดตั้ง Hadoop Distribution ต่างๆทั้ง Cloudera, Hortoworks, MapR และ Pure Apache Hadoop แล้วทำการเปรียบเทียบกัน ซึ่งนักศึกษาก็สามารถทำได้เป็นอย่างดี โดยได้ลงมือติดตั้งบน Server cluster บน Cloud สุดท้ายก็ให้นักศึกษาได้เรียนรู้การทำ  Big Data Analytics และ Machine Learning Techniques  โดยใช้เครื่องมือต่างๆอย่าง  Apache Spark, Spark MLlib และ Azure Machine Learning

ตลอดเวลาสองเดือนนักศึกษาได้ฝึกทักษะด้าน Big Data เป็นอย่างดี ซึ่งนักศึกษาที่มาฝึกงานมีทั้งปี 2 ปี 3 รวมถึงนักศึกษาปีที่ 4  จบแล้ว 3-4 คนซึ่งยอมมาฝึกงานก่อนออกไปทำงาน ผลของการฝึกงานก็ทำให้นักศึกษาเหล่านี้สามารถลงมือทำการวิเคราะห์ข้อมูลขนาดใหญ่โดยใช้ Hadoop และเทคโนโลยีต่างๆได้ และทุกคนก็ได้ใช้ผลของการฝึกงานเข้าไปทำงานในบริษัทต่างๆได้ นักศึกษาที่ฝึกงานในโครงการนี้ก็ยังสามารถแสดงความสามารถไปชนะการประกวดด้าน Big Data Analytics ต่างๆ ทั้งงาน Big Data Challenge ของ IMC Institute เองที่ต้องแข่งกับผู้ใหญ่และนักพัฒนาที่ทำงานแล้ว และก็ไปได้รางวัลการประกวด  Data Science Contest ของสถาบันบัณฑิตพัฒนบริหารศาสตร์ (NIDA) ซึ่งผลของการฝึกงานทางสถาบันไอเอ็มซีก็ถือว่าเป็นความภาคภูมิใจอย่างหนึ่งที่เราได้ทำเพื่อพัฒนาบุคลากรเข้าสู่ภาคอุตสาหกรรม

สำหรับในปีนี้ทางสถาบันไอเอ็มซีตั้งใจจะรับนักศึกษามาฝึกงานในโครงการ Big Data School รุ่นที่สอง โดยในปีนี้เน้นจะรับนักศึกษาปีที่ 4 ที่จบการศึกษาแล้วแต่ต้องการฝึกงานเพื่อเรียนรู้เพิ่มเติมอีกสองเดือนก่อนเข้าไปทำงานในภาคอุตสาหกรรม โดยทางสถาบันเองจะร่วมมือกับบริษัท  NetBay  และบริษัทสยามวาลา เพื่อร่วมกันพัฒนา Big Data Platform และให้นักศึกษาได้ทดลองฝึกงานกับโจทย์จริงในภาคอุตสาหกรรม นอกจากนี้ยังมุ่งเน้นให้นักศึกษาได้เรียนเพื่อที่จะสอบประกาศนียบัตรระดับสากลอย่าง CCA Spark and Hadoop Developer Exam (CCA175)  โดยทางสถาบันจะสนับสนุนค่าใช้จ่ายจำนวนหนึ่งให้กับนักศึกษาที่คาดว่าน่าจะสอบผ่าน

สำหรับกำหนดการ การฝึกงานในปีนี้จะมีโปรแกรมคร่าวๆดังนี้

29 พฤษภาคม วันแรกแรกการฝึกงาน จัดปฐมเทศ อบรมระเบียบวินัย ศึกษาแนวโน้มของเทคโนโลยี

30พฤษภาคม – 3 มิถุนายน เรียนรู้ระบบ Public Cloud ของค่ายต่างอาทิเช่น Google Cloud, Amazon Web Services, Microsoft Azure การใช้บริการต่างๆ อาทิเช่น Virtual Server, Cloud Storage, Auto-Scaling Servers, Application Development Servers รวมถึงศึกษาเรื่อง Docker

5 – 10 มิถุนายน เรียนรู้หลักการของ Big Data Architecture  การติดตั้ง Apache Hadoop การติดตั้ง Hadoop Cluster และการติดตั้ง Cloudera/Hortonworks Cluster รียนรู้ NoSQL และติดตั้งระบบต่างๆทั้ง Cassandra, MongoDB และ HBase ร่วมถึงระบบอย่าง ElasticSearch และ Solr

12-17 มิถุนายน  เรียนรู้บริการต่างๆของ Hadoop ต่อ การใช้บริการต่างๆทั้ง  Hive, Impala, Flume, Sqoop, Kafka, Cloudera Manager, Amabari และให้เขียนข้อสรุปเปรียบเทียบ Big Data ต่างๆ

19-24 มิถุนายน เรียนรู้ Apache Spark และการทำ Big Data Analytics โดยใช้ Spark Python, Spark Scala, Spark SQL และ Spark Streaming

26 มิถุนายน – 1 กรกฎาคม  เรียนรู้ Machine Learning การใช้เครื่องมือและภาษาต่างๆอาทิเช่น , MLLib และ Azure Machine Learning และติวการสอบ CCA Spark and Hadoop Developer Exam

3-27 กรกฎาคม ทำ Mini-Project

28 กรกฎาคม นำเสนอ Mini-Project และปิดการฝึกงาน

ทั้งนี้การอบรมเชิงฝึกงานครั้งนี้ไม่มีค่าใช้จ่ายใดๆ ซึ่งทางสถาบันคาดว่าผู้ที่ผ่านการอบรมจะเป็นผู้ที่เข้าใจหลักการและเทคโนโลยีด้าน Big Data  พร้อมทั้งสามารถทำด้าน Data Science ได้ โดยทางสถาบันจะมีการสอบและวัดผลสัมฤทธิ์ของการฝึกงาน และทางสถาบันจะออกใบรับรองว่าผ่านการฝึกงาน และผู้ที่ผ่านหากต้องการไปฝึกงานหรือทำสหกิจศึกษา การทำโครงการเพิ่มเติมระหว่างเรียน ทางสถาบันจะติดต่อและให้การรับรองให้ พร้อมกันนี้นักศึกษาที่ทำคะแนนสอบจากการทดลองสอบ CCA Spark and Hadoop Developer Exam สูงสุดสามอันดับแรกทางสถาบันจะออกค่าใช้จ่ายการสอบจริงให้มูลค่ารายละ $295 เพื่อให้ได้ประกาศนียบัตร ทั้งนี้ผู้เข้าอบรมไม่มีอะไรต้องผูกมัดกับทางสถาบัน และทางสถาบันยินดีประสานติดต่อกับบริษัทอื่นๆเพื่อไปทำงานด้าน Big Data ต่อไป

สำหรับคุณสมบัติผู้ที่จะเข้ารับการอบรมนี้มีดังนี้

  • กำลังศึกษาหรือสำเร็จการศึกษาในระดับปริญญาตรีสาขาวิศวกรรมคอมพิวเตอร์ วิทยากรคอมพิวเตอร์ หรือเทคโนโลยีสารสนเทศ [ถ้าเป็นนักศึกษาปี  4 ที่กำลังจบการศึกษาจะได้รับการพิจารณาก่อน]
  • มีความตั้งใจจะเข้าฝึกงานจริงจัง อาจเป็นส่วนหนึ่งของการจบการศึกษาหรือไม่ก็ได้
  • สามารถเข้าฝึกงานได้ตั้งแต่วันจันทร์-ศุกร์ เวลา เวลา 8.30 – 17.30 น.
  • ต้องเข้ามาฝึกงานทุกวันตามข้อตกลงและต้องมีเวลาเข้าฝึกงานไม่น้อยกว่า 95%

ผู้ที่มีความสนใจการอบรมนี้สามารถดูรายละเอียดเพิ่มเติมได้ที่ http://www.imcinstitute.com/bigdataschool พร้อมทั้งส่งใบสมัครออนไลย์และติดต่อที่สถาบันไอเอ็มซี ก่อนวันที่  31 มีนาคม 2560

ธนชาติ นุ่มนนท์

IMC Institute

กุมภาพันธ์ 2560

Hortonworks เทียบกับ Hadoop Distribution อื่นๆ

ช่วงสองสัปดาห์ที่ผ่านมา ผมให้ทีมนักศึกษาฝึกงานของ IMC Institute  ในโครงการ Big Data School  ได้ทดลองติดตั้งและเปรียบเทียบ Hadoop Distribution ต่างๆ ซึ่งผมได้เคยเขียนเรื่อง การติดตั้ง Hadoop Distributions  พร้อมทั้งวิธีการติดตั้งไว้แล้ว ในบทความ “Big Data School กับการติดตั้ง Hadoop Distributions” ซึ่งในการเปรียบเทียบDistribution ต่างๆ ผมให้นักศึกษาทดลองติดตั้งสองแบบคือ

  • การติดตั้ง  Hadoop Cluster 4-5  เครื่องบน Amazon EC2 หรือ Microsoft Azure สำหรับที่จะใช้เป็น Production
  • การใช้ Hadoop Sandbox บนเครื่อง Server หรือเครื่อง PC หนึ่งเครื่อง สำหรับที่จะใช้เป็นเครื่องทดลองหรือทำ Development

ซึ่งนักศึกษาก็ได้แบ่งกลุ่มกันทำ  Hadoop Distribution  4 ชุดคือ

Screenshot 2016-06-28 12.20.25

และผมได้ให้พวกเขาสรุปเปรียบเทียบในประเด็นต่างๆเช่น ราคา, ความยากง่ายในการใช้งาน, ความยากง่ายในการติดตั้ง, Opensource Compatibity, คู่มือเอกสารต่างๆและชุมชน, การสนับสนุนจากผู้ผลิต  ซึ่งพอสรุปประเด็นต่างๆได้ดังนี้

  • ราคา: ในแง่ราคา Apache Hadoop เป็นฟรีซอฟต์แวร์แต่ก็ไม่มี support ใดๆ ซึ่งถ้าเปรียบเทียบกรณีนี้ Hortonworks จะดีสุดเพราะฟรีเช่นกันยกเว้นต้องการซื้อ  support ขณะที่ Cloudera จะหรีเฉพาะ  Express Version และ MapR จะฟรีเฉพาะเวอร์ชั่น M3  ซึ่งทั้งสองเวอร์ชั่นไม่ใช่ Full Feature ที่ทั้งสองรายมีให้
  • ความง่ายในการติดตั้ง Cluster: เมื่อพิจารณาจากประเด็นนี้  Cloudera จะติดตั้งง่ายสุดโดยผ่าน Cloudera Manager แต่จริงๆแล้วการติดตั้ง Hortonworks ก็ไม่ยากเกินไปถ้าติดตั้งผ่าน Public Cloud หรือ  Private Cloud ที่เป็น Openstack  โดยใช้ Cloudbreak ส่วน Apache Hadoop ติดตั้งค่อนข้างยากแต่อาจใช้ Ambari ได้
  • ความง่ายในการใช้งาน: Cloudera และ MapR  จะมีส่วนติดต่อผู้ใช้ที่เป็น Hue ที่ค่อนข้างง่ายต่อการใช้งาน ส่วนของ Hortonworks ใช้ Ambari ที่มี Feature เพียงบางส่วน ส่วนของ Apache Hadoop จะต้องติดตั้ง Hue เองซึ่งค่อนข้างยาก
  • Opensource Compatibility: กรณีนี้ Hortonworks จะดีกว่ารายอื่นมากเพราะจะสอดคล้องกับ Apache Hadoop ที่เป็น Opensource ขณะที่ Cloudera จะเป็น Vendor Lockin หลายตัว อาทิเช่น Cloudera Manager หรือ Impala เช่นเดียวกับ MapR ที่ Lockin ตั้งแต่ MapR-FS และ MapR Streaming
  • Sandbox: ถ้าต้องการหาตัวทดลองเล่น Cloudera มีจุดเด่นที่มี Docker Image ให้เลยสามารถเล่นกับเครื่องใดก็ได้ ขณะที่ Hortonworks จะเน้นให้เล่นกับ VMware/VirtualBox หรือจะรันผ่าน Microsoft Azure เท่านั้น ส่วน distributation อื่นๆ (MapR, Apache Hadoop) ก็ไม่มี Official Docker Image  เช่นกัน
  • คู่มือเอกสารต่างๆและ Community:  ในแง่นี้ทั้งสามรายที่เป็น  Commercial Distribution ต่างก็มีเอกสารพอๆกัน แต่ถ้าพูดถึง Community เราอาจเห็นจำนวนคนที่จะแชร์ข้อมูล Cloudera มากกว่า Hortonworks แต่ทั้งนี้เราสามารถใช้ Community กลุ่มเดียวกับ Pure Apache Hadoop เพราะ Hortonworks จะมีความ Opensource Compatibity ค่อนข้างสูงแต่สองรายใหญ่ต่างก็มีงานประจำปีหลายที่คือ Hadoop Summit ของ Hortonworks และ Hadoop World ของ  Cloudera ส่วน MapR จำนวน  Community น้อยสุด
  •  การสนับสนุนจากผู้ผลิต: ถ้ามองในแง่ประเทศไทย การสนับสนุนจากผู้ผลิตของ Cloudera ยังนำรายอื่นๆอยู่มาก ทำให้หน่วยงานในประเทศไทยรายแห่งสนใจใช้ Cloudera

ทั้งนี้เมื่อพิจารณาโดยรวมแล้ว เราสรุปกันว่า ถ้าจะทำ Product ที่มีราคาถูกสุดและสอดคล้องกับ Pure Apache Hadoop มากที่สุดควรเลือกใช้ Hortonworks ทั้งนี้เพราะ  Commercial Distribution จะมีค่าใช้จ่ายในแง่ License หรือ Subscribtion แต่ถ้ามีงบประมาณค่อนข้างเยอะก็อาจเลือกใช้ได้ แต่ไม่ควรใช้ Free Version ของสองรายดังกล่าว (Cloudera และ  MapR) ทั้งนี้เนื่องจากไม่ใช่ Full Features และบางอย่างขาดความเสถียร

แต่ถ้าต้องการทดลองหรือใช้เพื่อทำ Development โดยผ่าน Hadoop Sandbox ก็จะแนะนำให้ใช้  Cloudera Quickstart ซึ่งผมเองก็ใช้ตัวนี้ในการอบรม ดังตัวอย่างเอกสารอบรมของผมดังนี้ >> Big data processing using Cloudera Quickstart

สุดท้ายผมมี  Slide ทีนักฝึกงานของ IMC Institute ได้ทำขึ้นเพื่อเปรียบเทียบ Hadoop Distribution ต่างๆดังนี้

 

ธนชาติ นุ่มมนท์

IMC Institute

มิถุนายน 2559

Slide สำหรับการเรียนรู้ Big Data Hadoop ของ IMC Institute

 

IMC Institute จัดอบรม Big Data Hadoop มาหลายรุ่นและมีคนผ่านอบรมมาจำนวนมาก และเคยทำเอกสารประกอบการบรรยายหลายชุด วันนี้ผมเลยรวบรวม Slide  ต่างๆมาเพื่อให้ทุกท่านได้เรียนรู้ Apache Hadoop + Spark ที่มี Service ต่างๆมากมาย โดยได้เป็นแบบฝึกหัดที่ผู้อ่านสารมารถนำไปฝึกและทดลองใช้งานได้จริง ทั้งนี้ Slide  ต่างๆเหล่านี้จะอ้างอิงกับ Cloudera Quickstart ที่ใช้ Docker Image  ดังนั้นผู้ที่สนใจจะเรียนรู้จาก Slide ชุดนี้จะต้องมีเครื่องคอมพิวเตอร์หรือ Server ที่มี Docker Engine  อยู่ โดยสามารถไปดูขั้นตอนการติดตั้งได้ที่ >> https://docs.docker.com/engine/installation/

Screenshot 2016-06-23 16.23.06

รูปที่ 1  Hadoop Ecosystem

สำหรับ Service ต่างๆที่เคยทำเอกสารการสอนมาก็เป็นไปดังรูปที่ 1  โดยมีเอกสารดังนี้

Service  ด้านเก็บข้อมูล

Service ด้านการประมวลผล

Service ด้านการนำข้อมูลเข้า

Apache Spark

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

Big Data กับการใช้งานในภาครัฐและอุตสาหกรรมอื่นๆ

การนำข้อมูลขนาดใหญ่ไปใช้งานจริงๆ ยังมีไม่มากนัก ทั้งนี้ด้วยข้อจำกัดในเรื่องของเทคโนโลยีและจำนวนบุคลากรที่มีความสามารถ ซึ่งทางสมาคม PIKOM ของมาเลเซียได้ทำรายงานเรื่อง Global Business Services Outlook Report 2015 ชี้ให้เห็นผลกระทบของเทคโนโลยีด้าน Big Data ในประเทศกลุ่ม APAC และอุตสาหกรรมต่างๆ โดยสรุปมาเป็นตารางดังนี้

ตารางที่ 1 ระดับผลกระทบของเทคโนโลยี Big Data [แหล่งข้อมูลจาก PIKOM]

Screenshot 2016-06-11 08.24.00

ซึ่งจะเห็นได้ว่ากลุ่มอุตสาหกรรมที่มีผลกระทบต่อการประยุกต์ใช้เทคโนโลยี Big Data อย่างมากคือ อุตสาหกรรมด้านการเงินการธนาคาร (BFSI) ด้านโทรคมนาคม ด้านค้าปลีกรวมถึงพาณิชย์อิเล็กทรอนิกส์ (E-commerce) และด้านสุขภาพ ส่วนกลุ่มภาครัฐบาลและกลุ่มอุตสาหกรรมการผลิตมีผลกระทบปานกลาง สำหรับประเทศที่มีการประยุกต์ใช้ Big Data อย่างมากคือสหรัฐอเมริกาและสหราชอาณาจักร โดยประเทศญี่ปุ่น สิงคโปร์ และออสเตรเลียมีผลกระทบการประยุกต์ใช้งานปานกลาง ส่วนประเทศไทยอยู่ในกลุ่มที่เหลือที่ยังมีการประยุกต์ใช้งานน้อย

สำหรับตัวอย่างของการนำเทคโนโลยี Big Data มาใช้งานในภาคอุตสาหกรรมต่างๆ มีดังนี้

  • อุตสาหกรรมค้าปลีก อาจนำมาเพื่อวิเคราะห์ความต้องการของลูกค้า เพื่อทำให้เห็นข้อมูลของลูกค้ารอบด้าน (Customer 360) หรือการแบ่งกลุ่มลูกค้า (Customer Segmentation)  นำมาจัดแผนการตลาด สร้างแคมเปญตอบสนองต่อพฤติกรรมการอุปโภค บริโภค ที่ปรับเปลี่ยนอยู่ตลอดเวลา ให้ดึงดูดลูกค้าเข้ามาจับจ่ายใช้สอยมากที่สุด ในสภาพการแข่งขันที่สูง และมีช่องทางอื่นๆ ใหม่ๆ เข้ามาเป็นทางเลือกมากขึ้น
  • อุตสาหกรรมโทรคมนาคม อาจนำเพื่อใช้ในการวิเคราะห์เครือข่ายโทรศัพท์เคลื่อนที่ วิเคราะห์การใช้งานของลูกค้า การวิเคราะห์แนวโน้มการย้ายค่ายของลูกค้า (Customer Churn) และนำเอาข้อมูลไปต่อยอดเพิ่มการให้บริการอีกมากมาย อีกทั้งยังสามารถนำข้อมูลมาวิเคราะห์ เรื่องความมั่นคงปลอดภัย ให้เป็นประโยชน์กับลูกค้าและเพื่อสาธารณะได้อีกด้วย
  • อุตสาหกรรมการเงิน อาจนำมาเพื่อวิเคราะห์การฉ้อโกงเงิน การคาดการณ์ความต้องการของลูกค้า การแบ่งกลุ่มลูกค้า และการวิเคราะห์ความเสี่ยงของลูกค้า
  • ด้านวิทยาศาสตร์และเทคโนโลยีเช่น การพยากรณ์อากาศ การคาดการณ์ข้อมูลน้ำ หรือการวิเคราะห์ข้อมูลจากเซ็นเซอร์ต่างๆ การใช้งานพลังงาน
  • งานด้านการตลาด อาจนำมาเพื่อวิเคราะห์ข้อมูลจากเครือข่ายสังคมออนไลน์ (Social Media) การวิเคราะห์ข้อมูลที่พูดถึงสินค้าหรือแบรนด์ของหน่วยงาน (Sentiment Analysis) การค้นหาลูกค้าใหม่ๆ บนโลกออนไลน์
  • งานด้านบันเทิง หรือการท่องเที่ยว เป็นการวิเคราะห์กระแส ความนิยม talk of the town ในแต่ละกลุ่มบริการซึ่งมีส่วนเกี่ยวโยงกับ ข้อมูล ความคิดเห็น ในโซเชียลมีเดีย เป็นส่วนใหญ่ เพื่อจัดโปรแกรมหรืองาน ที่สร้างความสนใจให้ได้ตรงกับความสนใจของตลาด ในแต่ละช่วง แต่ละเวลา กับกลุ่มเป้าหมายที่ต่างกันไป

การประยุกต์ใช้งาน Big Data ในภาครัฐ

สำหรับตัวอย่างการใช้ประยุกต์ใช้งาน Big Data ในภาครัฐสามารถนำมาใช้งานได้ในหลายๆ หน่วยงานเช่น ด้านสาธารณสุข ด้านวิทยาศาสตร์ ด้านความมั่นคง ด้านการเงิน ด้านการบริการประชาชน ด้านเกษตรกรรม ด้านสาธารณูปโภค หรือด้านคมนาคม อาทิเช่น

  • การใช้เพื่อวิเคราะห์ข้อมูลอุตุนิยมวิทยาในการพยากรณ์อากาศ
  • การใช้เพื่อวิเคราะห์ข้อมูลการจราจร
  • การวิเคราะห์ข้อมูลเพื่อลดปัญหาและป้องกันการเกิดอาชญากรรม
  • การวิเคราะห์ข้อมูลด้านสาธารณสุข เช่น แนวโน้มของผู้ป่วย การรักษาพยาบาล หรือการเกิดโรคระบาด
  • การวิเคราะห์ข้อมูลด้านน้ำ แหล่งน้ำ ปริมาณฝน และการใช้น้ำ
  • การวิเคราะห์ข้อมูลการใช้ไฟฟ้า ค่าการใช้พลังงาน
  • การวิเคราะห์ข้อมูลการทหารและความมั่นคงต่างๆ
  • การวิเคราะห์ข้อมูลเพื่อตรวจสอบการเสียภาษีของประชาชนหรือบริษัทห้างร้านต่างๆ

ข้อดีของการประยุกต์ใช้เทคโนโลยี Big Data ในภาครัฐสามารถสรุปได้ดังนี้

  1. การใช้เงินงบประมาณและเงินรายได้ต่างๆ ของภาครัฐจะมีประสิทธิภาพมากขึ้น เพราะ Big Data จะช่วยคาดการณ์และวิเคราะห์ได้แม่นยำมากขึ้น
  2. ภาครัฐสามารถที่จะตรวจสอบข้อมูลการใช้งบประมาณได้ดียิ่งขึ้น
  3. ภาครัฐจะมีรายได้มากขึ้นหากมีการนำ Big Data มาใช้วิเคราะห์ข้อมูลการเสียภาษีด้านต่างๆ ว่ามีความถูกต้องเพียงใด
  4. ประชาชนจะได้รับการบริการที่ดีขึ้น เช่นการนำมาแก้ปัญหาจราจร  การให้บริการสาธารณสุข การให้บริการสาธารณูปโภค
  5. ประชาชนจะมีคุณภาพชีวิตที่ดีขึ้น เช่นเพิ่มความปลอดภัยโดยการวิเคราะห์แนวโน้มอาชญากรรม การมีสุขภาพที่ดีขึ้นจากการวิเคราะห์ข้อมูลสาธารณสุข
  6. เกิดความร่วมมือกับภาคเอกชนมากขึ้น จากการนำข้อมูลไปใช้
  7. จะมีข้อมูลใหม่ๆ มากขึ้นจากประชาชน (Crowdsourcing) หรือข้อมูลจากอุปกรณ์  Internet of Things
  8. เป็นการสร้างทักษะและผู้เชี่ยวชาญด้านข้อมูลมากขึ้น

อย่างไรก็ตามความท้าทายของการประยุกต์ใช้เทคโนโลยี Big Data ยังอยู่ที่ความร่วมมือของหน่วยงานต่างๆ โดยอาจสรุปปัญหาต่างๆ ที่ควรแก้ไขดังนี้

  1. วัฒนธรรมของหน่วยงานจำนวนมากที่จะรู้สึกหรือคิดว่าข้อมูลเป็นของหน่วยงานตนเอง โดยไม่มีการแชร์ข้อมูลให้กับหน่วยงานภายนอกหรือหน่วยงานอื่นในองค์กรเดียวกัน
  2. คุณภาพของข้อมูลที่อาจไม่สมบูรณ์หรือขาดความถูกต้อง
  3. ปัญหาเรื่องข้อมูลที่เป็นสิทธิส่วนบุคคล หรือความเท่าเทียมกันของการเข้าถึงข้อมูลของภาคประชาชน
  4. การขาดบุคลากรที่มีความสามารถทางด้านเทคโนโลยี Big Data

ดังนั้นสิ่งที่ภาครัฐควรจะต้องเร่งทำเพื่อให้มีการประยุกต์ใช้ Big Data ในองค์กรคือ

  1. พัฒนาความรู้ความเข้าใจในการประยุกต์ใช้เทคโนโลยี Big Data  และสร้างวัฒนธรรมการร่วมมือการแชร์ข้อมูล
  2. ออกกฎหมายหรือกฎระเบียบเพื่อให้เกิดการเปิดข้อมูลของภาครัฐ (Open Data)
  3. พัฒนาทักษะบุคลากรให้มีความรู้ด้านเทคโนโลยี Big Data  
  4. มีหน่วยงานกลางที่ให้บริการเทคโนโลยี Big Data เพื่อไม่ให้เกิดการลงทุนซ้ำซ้อน และไม่ควรให้ทุกหน่วยงานลงทุนซื้อเทคโนโลยีมากเกินไป

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

Big Data School กับการติดตั้ง Hadoop Distributions

 

ตามที่ผมเคยเล่าไว้ว่าเราจะจัด Big Data School รับนักศึกษา  15 คนมาฝึกงานสองเดือนในช่วงปิดเทอม โดยโครงการนี้เป็นงานที่ IMC Institute จัดร่วมกับ ICE Solution สุดท้ายเราก็ได้รับนักศึกษามาจากที่ต่างๆทั้ง จุฬาลงกรณ์มหาวิทยาลัย ลาดกระบัง พระนครเหนือ มหาวิทยาลัยราชมงคลรัตนโกสินทร์ ธุรกิจบัณฑิต หรือมาไกลๆจาก มหาวิทยาลัยนครพนม มหาวิทยาลัยฟาฏอนี หรือนักศึกษาไทยในต่างประเทศอย่าง Wesleyan University โดยเราเริ่มโครงการนี้ตั้งแต่วันที่  31 พฤษภาคม 2559

1465536090096

โครงการที่ทำในสัปดาห์แรกนอกจากมีเรื่องของกลุ่มสัมพันธ์แล้ว เราก็เริ่มสอนให้นักศึกษาใช้ Cloud เรื่องรู้และได้ทดลองระบบ Cloud ต่างๆทั้ง Amazon Web Services (AWS), Google Cloud และ  Microsoft Azure  โดยได้ทดลองใช้ EC2, RDS และ Auto-scaling  ซึ่งความรู้จากการใช้ Cloud Services นี้ก็เพื่อที่จะนำไปใช้ในการติดตั้ง Big Data Platform  ต่างๆ

นอกเหนือจากการเรียนรู้เรื่อง Cloud แล้วในสัปดาห์แรกก็ยังมีการแนะนำ Big Data Technology ต่างๆ และนักศึกษาเองก็เริ่มได้เห็นกับ Hadoop Technology ทดลองเล่น Hadoop Cloudera  ขนาด 5 เครื่องใหญ่ที่ติดตั้งบน  Cloud Cluster  ที่เป็น Account ของ  IMC Institute

ในสัปดาห์ที่สอง ตอนต้นเราเริ่มสอนตั้งแต่การใช้  Vitualization Tool อย่าง VirtualBox และ Container อย่าง  Docker จากนั้น เราก็แบ่งกลุ่มให้ใช้ Hadoop Sandbox ที่เป็น Distribution ต่างๆ เช่น

 

โดยในเบื้องต้นให้  VM ที่เป็น VirtualBox ลงที่เขียนตัวเอง จากนั้นก็เปลี่ยนไปให้ Docker โดยใช้ Virtual Server ที่เป็น Amazon EC2  ที่น่าสนใจคือนักศึกษาได้ทำกันสมบูรณ์และเขียนสรุปกันมาเป็น Slide ให้คนสามารถไปติดตั้งต่อได้ดังนี้

ตอนนี้นักศึกษากำลังติดตั้ง Hadoop Cluster ทั้ง 4 distributions โดยจะลงในเครื่อง Server ขนาดใหญ่ 4 เครื่องซึ่งถ้ามี  Slide และข้อมูลดีๆผมจะมา Update  อีกครั้ง

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

 

 

 

การฝึกงานแบบ Big Data School ของ IMC Institute ปิดเทอมนี้

วันก่อนน้องที่สนิทท่านหนึ่งเอารายการทีวีดูให้รู้ ตอน “โรงเรียนฝึกคนหัวใจเพชร” เป็นโรงเรียนฝึกเด็กช่างไม้ในญี่ปุ่น สอนเด็กให้แกร่ง อดทน มีวินัยและใช้สมอง เห็นความยากลำบากในการเรียนกว่าจะออกมาเป็นช่างไม้ที่เก่งและมีคุณภาพ น้องถามว่าเราทำโรงเรียนพัฒนา Developer อย่างนี้ในเมืองไทยไหม เราคุยกันว่าอยากจะทำแต่ก็ยังไม่ได้ลงมือทำอะไรมากนัก

พฤษภาคมนี้ผมกำลังย้ายออฟฟิทของ IMC Institute ไปอยู่ตึกสกุลไทย แถวสุริวงศ์เราคงมีพื้นที่กว่างขึ้น มีห้องฝึกอบรมที่พร้อมจะรองรับผู้เรียนได้จำนวนหนึ่ง การอบรมส่วนใหญ่ของ IMC Institute ยังคงอยู่ข้างนอก แต่ห้องอบรมนี้ผมได้บอกกับทีมงานว่าเราใช้งานเพื่อสังคม งาน CSR งานอบรมฟรีราคาถูกมากที่นี่เลยไม่ว่าจะเป็นงาน Big Data Challenge, Big Data User Group, Train the trainers ตลอดจนกิจกรรมอื่นๆที่เราคงสามารถทำอะไรได้มากขึ้น

ผมก็เลยเริ่มคิดถึงการฝึกคน ผมอาจจะยังไม่สามารถทำโรงเรียนฝึก Developer หัวใจเพชรได้ทันที แต่ก็นึกขึ้นมาว่าวันนี้เราหา Developer เก่งๆได้ยากโดยคนที่จะซื่อสัตย์และตั้งใจทำงานให้กับหน่วยงาน ไม่ใช่แค่คิดหวังจะร่ำรวย นอกเหนือจากมีความรู้ ก็ต้องอดทนและมีจริยธรรมที่ดี เรามาฝึกงานเขาไหม? อาจเป็นช่วงเวลาสั้นๆ 2-3 เดือน พอฝึกงานเสร็จมาเขาจะกลับไปเรียนต่อหรือไปทำงานที่ไหนก็ตามอย่างน้อยเราก็ได้สร้างประโยชน์ให้กับสังคมบ้าง พอคิดได้อย่างนี้ก็เริ่มคุยกับเพื่อนและอาจารย์บางคนแล้วบอกว่า กลางเดือนพฤษภาคมนี้ผมจะทำ Big Data Intern School ฝึกงานนักศึกษาซัก 6-7 คนให้ทำ Big Data แล้วก็ลองร่างสิ่งที่จะฝึกเขาดังนี้

  • การเรียนรู้หลักการของ Big Data
  • สามารถติดตั้งระบบ Big Data ได้ไม่ว่าจะเป็น Apache Hadoop, Cloudera, Hortonworks, Amazon EMR และ Microsoft Azure HDInsight
  • เปิดระบบ Cloud Computing อย่าง Amazon AWS และ Microsoft Azure ให้เล่นเต็มที่
  • สามารถติดตั้งระบบNoSQL ต่างๆอย่าง Cassandra, NoSQL, MongoDB
  • เรียนรู้การประมวลข้อมูลขนาดใหญ่โดยใช้ Hive, Impala, Spark
  • สามารถที่จะดึงข้อมูลเข้าโดยใช้เทคโนโลยีอย่าง Sqoop, Flume, Kafka
  • เรียนรู้การทำ  Machine Learning โดยใช้ภาษา R, Spark MLib หรือเครื่องมืออย่าง Azure Machine Learning
  • ทำโปรเจ็คด้าน Big Data กับบริษัท

พอคิดได้อย่างนี้ก็รู้ว่าส่วนหนึ่งคงต้องสอนเอง บางอย่างก็ต้องไปเชิญอาจารย์ท่านอื่นๆมาสอนทั้งที่บริษัทหรือ Teleconference รวมถึงบางอย่างอาจต้องให้เรียนผ่าน Online Class บน YouTube โดยคนมาฝึกงานคงไม่มีค่าใช้จ่ายและได้เรียนรู้สิ่งต่างๆเหล่านี้แต่คงต้องมีกฎเกณฑ์

  • ไม่มีค่าใช้จ่ายใดๆ
  • ผู้เข้าฝึกงาน (อบรม)  ต้องกำลังศึกษาหรือสำเร็จการศึกษาในระดับปริญญาตรีสาขาวิศวกรรมคอมพิวเตอร์ วิทยากรคอมพิวเตอร์ หรือเทคโนโลยีสารสนเทศ
  • อายุไม่เกิน 24 ปี
  • มีความตั้งใจจะเข้าฝึกงานจริงจัง อาจเป็นส่วนหนึ่งของการจบการศึกษาหรือไม่ก็ได้
  • สามารถเข้าฝึกงานได้ตั้งแต่วันจันทร์-เสาร์ เวลา เวลา 8.30 – 17.30 น.
  • ต้องเข้ามาฝึกงานทุกวันตามข้อตกลงและต้องมีเวลาเข้าฝึกงานไม่น้อยกว่า 95%
  • ผู้เข้าฝึกงานต้องเขียนรายงานส่งทุกวัน หากไม่ส่งถือว่าเป็นการยุติการฝึกงาน
  • หากมาสายเกิน 4 ครั้งโดยไม่มีเหตุผลถือว่าเป็นการยุติการฝึกงาน
  • จะมีการสอบและวัดผลสัมฤทธิ์ของการฝึกงาน และทางสถาบันจะออกใบรับรองว่าผ่านการฝึกงาน และผู้ที่ผ่านหากต้องการไปฝึกงานหรือทำสหกิจศึกษา การทำโครงการเพิ่มเติมระหว่างเรียน ทางสถาบันจะติดต่อและให้การรับรองให้

ทั้งนี้ผมเองได้กำหนดโปรแกรมการฝึกงานคร่าวๆดังนี้

30 พฤษภาคม วันแรกแรกการฝึกงาน จัดปฐมเทศ อบรมระเบียบวินัย ศึกษาแนวโน้มของเทคโนโลยี และพูดคุยเพื่อหาคำตอบว่า ทำไมการศึกษาในยุคปัจจุบันทำให่คนเรียนด้านคอมพิวเตอร์ตกงาน

30พฤษภาคม – 4 มิถุนายน เรียนรู้ระบบ Public Cloud ของค่ายต่างอาทิเช่น Amazon Web Services, Microsoft Azure การใช้บริการต่างๆ อาทิเช่น Virtual Server, Cloud Storage, Auto-Scaling Servers, Application Development Servers, Docker Servet

6 – 11 มิถุนายน เรียนรู้หลักการของ Big Data การติดตั้ง Apache Hadoop การติดตั้ง Hadoop Cluster และการติดตั้ง Cloudera/Hortonworks Cluster

13-18 มิถุนายน  เรียนรู้บริการต่างๆของ Hadoop ต่อ การใช้บริการต่างๆทั้ง  Flume, Sqoop, Kafka, Cloudera Manager, Amabari และให้เขียนข้อสรุปเปรียบเทียบ Big Data ต่างๆ

20-25 มิถุนายนเรียนรู้ NoSQL และติดตั้งระบบต่างๆทั้ง Cassandra, MongoDB และ HBase ร่วมถึงระบบอย่าง ElasticSearch และ Solr

27 มิถุนายน – 2 กรกฎาคม เรียนรู้การประมวลผลข้อมูลขนาดใหญ๋ผ่าน SQL โดยใช้ Hive หรือ Impala พร้อมทั้ง Mini-Project

4-9 กรกฎาคม เรียนรู้ Spark และการพัฒนาโครงการโดยใช้ Spark

11-16 กรกฎาคม  เรียนรู้ Machine Learning การใช้เครื่องมือและภาษาต่างๆอาทิเช่น R, MLib และ Azure Machine Learning

20-28 กรกฎาคม ทำ Mini-Project ให้เสร็จพร้อมทั้งเตรียมนำเสนอ

29 กรกฎาคม นำเสนอ Mini-Project และปิดการฝึกงาน

ผมเขียนเล่ามาเพื่อที่จะบอกว่าผมคิดจะทำอะไร มันเป็นความคิดที่จะลงมือทำจริงๆ ถ้าน้กศึกษาหรือใครที่สนใจมีตามเกณฑ์ที่ผมบอกสนใจ ลองส่งประวัติมาที่ contact@imcinstitute.com และเขียนบทความสั้นๆมาให้หนึ่งหน้าว่า “Before I die…”

ขอบคุณครับ

ธนชาติ นุ่มนนท์

IMC Institute.

มีนาคม 2559

 

 

 

IMC Institute ให้ทุนอบรม Big Data Certification 120 ชม.สองทุน

 

IMC Institute  จะเปิดหลักสูตร Big Data Certification ที่เรียนเข้มข้น 120 ชั่วโมง วันพฤหัสบดีตอนเย็น 18.00-21.00 และวันเสาร์ทั้งวันรุ่นที่ 3 โดยเริ่มสอนตั้งแต่วันที่ 17 มีนาคม 2559 หลักสูตรเปิดมาแล้วสองรุ่น รุ่นหนึ่งเรียน 30 คนในปีที่แล้ว โดยมีอาจารย์สอนร่วมกันหลายท่าน ทั้งเรื่องของหลักการ  Big Data การใช้เทคโนโลยีต่างๆ ทั้ง Hadoop, NoSQL, Big Data on Cloud, BI Tool การประมวลผลในรูปแบบต่างๆ เรียนรู้เรื่อง Machine Learning

IMC Institute มองเห็นความสำคัญของการพัฒนาบุคลากร Big Data ในบ้านเราและได้จัดอบรมและกิจกรรมสัมมนาทางด้านนี้ อย่างต่อเนื่อง มีทั้งฟรีสัมมนา หลักสูตรราคาที่เหมาะสม การจัด Big Data User Group การจัดอบรมแบบฟรีในลักษณะ Big Data Challenge การให้ทุนบุคลากรในภาคส่วนต่างๆ การจัด Train the Trainer ให้กับอาจารย์สถาบันอุดมศึกษา แม้ IMC Institute จะเป็นหน่วยงานเอกชนแต่ก็ตระหนักถึงความรับผิดชอบที่จะต้องช่วยพัฒนาบุคลากรด้านไอทีของประเทศซึ่งบางครั้งจำเป็นต้องช่วยหน่วยงานของรัฐในการทำ จึงได้ทำกิจกรรมต่างๆเหล่านี้ ทั้งนี้ในรอบ  3 ปีที่ผ่านมา IMC Institute ได้จัดอบรมหลักสูตรด้าน Big Data จำนวน 60  ครั้ง จัดฟรีสัมมนา/กิจกรรมจำนวน 8 ครั้งโดยมีผู้มาร่วมทั้งสิ้น 1,735 ราย

download (3)

การพัฒนาอาจารย์อุดมศึกษาเรื่องของ Big Data ทางสถาบันไอเอ็มซีเคยจัด Train the Trainer มาแล้วสองรุ่น โดยเก็บค่าเรียนเพียง 5,500 บาทเพื่อให้เพียงพอกับค่าเช่าห้องอบรมและค่าอาหารในเวลา 5  วัน โดยงานทั้งสองก็เป็นการใช้เงินของสถาบันเองในการทำงาน และปีนี้ก็ตั้งใจจะจัดหลักสูตร Train the Trainers อีกครั้งในเดือนกรกฎาคม อาจารย์ท่านใดสนใจก็โปรดติดตามข้อมูลอบรมนี้ที่จะประกาศเร็วๆนี้

สำหรับหลักสูตร  Big Data Certification  ในสองรุ่นที่ผ่านมา ทาง  IMC Institute ให้ทุนอบรมฟรีมาแล้วรุ่นละสองทุน โดยรุ่นแรกให้กับอาจารย์สถาบันอุดมศึกษาสองท่านและรุ่นที่สองให้กับหน่วยงานภาครัฐสองท่าน นอกจากนี้ทางสำนักงานรัฐบาลอิเล็กทรอนิกส์ก็ได้มอบทุนมาให้กับบุคลากรภาครัฐทั้งสองรุ่น โดยรุ่นแรกมีจำนวน  10 คนและรุ่นที่  2  จำนวน  5 คน

ในหลักสูตร Big Data Certification รุ่นที่สามนี้เรามีการปรับปรุงเนื้อหาเล็กน้อย โดยจะเน้นให้มีการทำ  Mini-Project และมีการติดตั้งระบบจริงบน Cloud Server มากขึ้น มีการสอนระบบประมวลผลใหม่ที่เน้น Spark และ R มีการนำเครื่องมือใหม่ๆเช่น  Tableau  เข้ามา โดยสิ่งที่ตั้งใจจะอบรมมีเครื่องมือหลักๆดังนี้

  • Hadoop Distribution: Apache, Cloudera  และ  Amazon EMR
  • NoSQL: Cassandra, Mongo DB และ HBase
  • Visualisation Tools: Tableau  และ Microsoft SQL Server
  • Big Data Processing: MapReduce, Spark, Hive, Pig, R และ Impala
  • Big Data Ingestion: Sqoop  และ Flume
  • Machine Learning: Microsoft Azure ML , R และ Spark MLib
  • Cloud Platform: Amazon Web Services และ Microsoft Azure

ผู้สนใจสามารถที่จะหาดูรายละเอียดข้อมูลได้ที่ www.imcinstitute.com/bigdatacert

สำหรับหลักสูตร Big Data Certification  รุ่นนี้ทาง IMC Institute  ตั้งใจจะมอบทุนอบรมฟรีให้กับอาจารย์สถาบันอุดมศึกษาอีก  2  ท่าน เหตุผลที่เราพยายามเน้นมอบให้กับอาจารย์เพราะคิดว่าอาจารย์สามารถที่จะนำความรู้ไปสอนนักศึกษาต่อและขยายผลได้ โดยได้กำหนดคุณสมบัติไว้ดังนี้

  • เป็นอาจารย์สอนในระดับอุดมศึกษาในสถาบันของรัฐหรือเอกชน
  • มีอายุตั้งแต่ 28 ปีขึ้นไป
  • ต้องสามารถมาเรียนได้อย่างน้อยร้อยละ 85 ของการเรียน
  • สามารถที่จะนำไปสอนหรือทำงานวิจัยต่อไปได้

ทั้งนี้ IMC Institute อยากให้ผู้ที่สนใจเขียนประวัติและแรงจูงใจที่อยากเรียนหลักสูตร Big Data Certification ส่งอีเมลมาที่ contact@imcinstitute.com  ภายในวันที่  5 มีนาคม 2559  และถ้า IMC Institute จะขออนุญาตเชิญผู้ที่ผ่านการคัดเลือกรอบแรกมาสัมภาษณ์ระหว่างวันที่ 6-10 มีนาคม และจะประกาศผลในวันที่  11  มีนาคม 2559

ธนชาติ นุ่มนนท์

IMC Institute

กุมภาพันธ์ 2559

 

 

 

Data Lake: Redefine Data WareHouse

 

วันที่ 3  มีนาคมนี้ทาง IMC Institute จะจัดฟรีสัมมนา Big Data User Group 1/2016 โดยครั้งนี้เป็น Theme  เรื่อง Data Lake: Redefine Data WareHouse ซึ่งงานนี้ได้รับการสนับสนุนจาก  Hitachi Data Systems และบริษัท Vintcom โดยมีสำนักงานรัฐบาลอิเล็กทรอนิกส์ (องค์กรมหาชน) หรือ EGA มาร่วมจัดงาน

เมื่อถึงหลักการของการพัฒนาระบบข้อมูล ในอดีตเราก็จะนึกถึงการทำ DataBase ตามด้วยการทำ Data WareHouse จนบางครั้งบางคนคิดไปว่าเราต้องทำโปรเจ็ค Data WareHouse เพื่อที่จะจัดระเบียบข้อมูลในหน่วยงาน ทำ Data Cleansing และ Data Governance ต่างๆก่อนที่จะทำโครงการ Big Data ซึ่งรูปแบบในการทำ Data WareHouse โดยมากมักจะมีขั้นตอนต่างๆคือ

  • การออกแบบระบบจาก Top Down หรือ  Bottom Up
  • กำหนด  Data Model
  • Extract Transform Load (ETL)
  • การทำ Data Governance
  • จัดหา BI Tool สำหรับ Data WareHouse
  • จัดทำรายงาน

ขั้นตอนการทำ Data WareHouse จะเป็นรูปแบบเดิมที่เน้นข้อมูลที่เป็น Structure แล้วจึงทำการดึงข้อมูลมาวิเคราะห์  (Structure -> Ingest -> Analyse)  โดยจะต้องใช้ทรัพยากรที่มีความจุจำกัดและไม่มีความหลากหลาย แต่ในโลกของ Big Data ข้อมูลจะมีความหลากหลาย จะมีจำนวนเข้ามามหาศาลและเพิ่มขึ้นอย่างไม่จำกัด ดังนั้น เราจำเป็นจะต้องเปลี่ยนหลักการเป็น การดึงข้อมูลหลากหลายชนิดทำการวิเคราะห์แล้วจึงทำการเก็บจ้อมูล (Ingest -> Analyse -> Structure)

หลักการที่กล่าวใหม่ข้างต้นคือ Data Lake ซึ่งเป็นเรื่องใหม่ในโลกของ Big Data ที่ใช้ในปัจจุบัน ซึ่งจะประกอบไปด้วย Component ต่างๆดังรูปที่ 1 และเหตุที่หลักการเปลี่ยนแปลงไปก็เพราะเทคโนโลยี Big Data ใหม่ได้ช่วยทำให้สิ่งต่างๆเหล่านี้ทำได้ดังรูปที่ 2 อาทิเช่น

  • เทคโนโลยีการเก็บข้อมูล Unstructure ขนาดใหญ่อย่าง Hadoop HDFS, Amazon S3 หรือ NoSQL
  • เทคโนโลยีในการประมวลผลข้อมูลอย่าง MapReduce, Hive, Spaek, Impala
  • เทคโนโลยีในการทำ Data Acquisition อย่าง KafKa, Sqoop, Flume
  • เทคโนโลยีในการแสดงผลข้อมูลใหม่อย่าง  Pentaho BI, Tableau

Screenshot 2016-02-21 08.45.13.png

รูปที่ 1 Data Lake Components [Source: Building the Enterprise Data Lake: A look at architecture,  Mark Madsen]

Screenshot 2016-02-21 08.26.19

รูปที่ 2 หลักการของ  Data Lake

ความแตกต่างระหว่าง Data Lake เมื่อเทียบกับ Data WareHouse ที่สำคัญมีดังนี้

  • Data Lake จะเก็บข้อมูลทั้งหมด
  • Data Lake สนับสนุนข้อมูลทุกชนิดไม่แค่ข้อมูลแบบ Structure
  • Data Lake มีเพื่อให้ผู้ใช้ทุกประเภทสามารถใช้งานได้
  • Data Lake สามารถติดตั้งได้ง่ายและเปลี่ยแปลงได้เร็ว
  • Data Lake จะประมวลและวิเคราะห์ข้อมูลได้รวดเร็วกว่า

ซึ่งทาง  AWS ก็สรุปความแตกต่างระหว่าง Data Lake และ Data WareHouse ไว้ดังรูปที่ 3

Screenshot 2016-02-21 08.31.58

รูปที่ 3 Data Lake v.s Data WareHouse

สำหรับรายละเอียดทั้งหมดคงได้มาฟังกันในงานสัมมนาวันที่ 3 มีนาคมนี้ แต่ต้องขอบอกว่าตอนนี้ที่นั่งเต็มและปิดรับลงทะเบียนแล้ว

ธนชาติ นุ่มมนท์

IMC Institute

กุมภาพันธ์ 2559

ความต้องการบุคลากรทางด้าน Big Data

 

Big Data เป็นเรื่องที่กล่าวขานกันอย่างมากในปัจจุบัน และอาจเป็นเทคโนโลยีไอทีเพียงไม่กี่อย่างที่กล่าวกันมากในวงการธุรกิจ กลุ่มผู้บริหารเริ่มเห็นความสำคัญของการนำข้อมูลขนาดใหญ่มาวิเคราะห์หรือคาดการณ์แนวโน้มของธุรกิจ เรื่อง Big Data ยังเป็นเรื่องใหม่ คนจำนวนมากย้งไม่เข้าใจเรื่องนี้อย่างแท้จริง มันเหมือนศัพท์ขั้นเทพที่ทุกคนอยากกล่าวถึงแต่ก็ย้งไม่เข้าใจอย่างแท้จริง เรื่องบุคลากรก็เป็นอีกเรื่อง บางหน่วยงานพอมีคำว่า Big Data ผู้บริหารก็เริ่มบอกว่าต้องการ Data Scientist ทั้งๆที่ยังไม่รู้ว่าจะกำหนด Job Description ในองค์กรให้เขาอย่างไร หรือจำเป็นแค่ไหนที่เราต้องการบุคลากรด้านนี้ในองค์กร

คำถามที่มักจะเจอก็คือเราจะเริ่มต้นทำ Big Data อย่างไร เราต้องการบุคลากรอย่างไร ทักษะเปลี่ยนไปจากเดิมมากน้อยอย่างไร เราต้องการ Data Scientist ในองค์กรเพื่อทำ Big Data  จริงหรือ? คำถามเหล่านี้ไม่มีคำตอบที่ชัดเจน แต่มันก็ขึ้นอยู่กับระดับความต้องการใช้งาน Big Data ขององค์กร แต่ที่แน่ๆทักษะของบุคลากรในยุคใหม่ที่มีเทคโนโลยี Big Data จะเปลี่ยนแปลงจากสมัยเดิมที่เรื่องแต่เรื่องของ RDBMS ในมุมมองของผมงานทางด้าน Big Data น่าจะแบ่งบุคลากรด้านต่างๆได้ดังนี้

  • Chief Data Officer  ในอดีตเราอาจมีผู้บริหารสูงสุดด้านไอที แต่แนวโน้มเราอาจต้องการผู้บริหารสูงสุดด้านข้อมูล ที่มีอำนาจในการดูแลข้อมูลภายในและภายนอกองค์กร การนำข้อมูลไปใช้งาน การบริหารจัดการเทคโนโลยีสารสนเทศด้านข้อมูล การออกแบบสถาปัตยกรรม การดูแลเรื่องคุณภาพข้อมูล และอาจรวมไปถึงทรัพย์สินทางปัญญาที่อาจเกิดขึ้น จากข้อมูลหรืออัลกอริทึกจากการวิเคราะห์คาดการณ์ข้อมูล
  • Big Data Architect เทคโนโลยีด้านข้อมูลเปลี่ยนไปจากเดิมมากที่แต่ก่อนอาจพูดถึงแค่ RDBMS หรือ Data WareHouse แต่ในปัจจุบันทุกองค์กรจะต้องปรับโครงสร้างพื้นฐานด้านข้อมูลและอาจต้องนำเทคโนโลยีใหม่เข้ามาใช้งานทั้ง Hadoop, NoSQL, Storage หรือ แม้แต่  Cloud Service ซึ่งเทคโนโลยีเหล่านี้ยังมีบริการหรือเทคโนโลยีเสริมต่างๆที่หลากหลาย อาทิเช่น Data Ingestion อย่าง KafKa, Sqoop  หรือ Flume หรือเทคโนโลยีด้านประมวลผลเช่น Spark, Impala หรือเทคโนโลยีการทำ Visualisation ดังจะเห็นได้จากรูปที่ 1 ที่แสดง Big Data Landscape ที่ประกอบด้วยเทคโนโลยีต่างในปัจจุบัน ซึ่งเราจำเป็นต้องการ IT Architect ที่เข้าใจการออกแบบระบบที่รองรับเทคโนโลยีหลากหลายเหล่านี้ได้
  • Big Data Engineer/Administrator งานอีกด้านหนึ่งที่จำเป็นคือคนที่มีความสามารถในการติดตั้งระบบ Big Data ต่างๆเช่น Hadoop, RDBMS, NoSQL รวมถึงการ Monitor  และการทำ Performance Tuning  ซึ่งงานแบบนี้อาจต้องการทักษะคนที่เข้าใจระบบปฎิบัติการ มีความสามารถที่จะเป็นผู้ดูแลระบบเหมือน  System Admin  แต่บุคลากรแต่ละรายอาจไม่สามารถดูแลทุกระบบได้เพราะแต่ละระบบต้องการทักษะที่ต่างกัน
  • Big Data Developerในอดีตงานนี้อาจหมายถึงคนที่จะมาช่วยพัฒนา SQL เพื่อจะเรียกดูข้อมูลจาก DataBase แต่ปัจจุบันระบบประมวลผลขนาดใหญ่ต้องการทักษะด้าน Programming มากขึ้นและมีเทคโนโลยีที่หลากหลายมากขึ้นทั้ง MapReduce, Spark, Hive, Pig หรือ Impala แต่ละเทคโนโลยีก็ต้องการทักษะที่ต่างกัน ดังนั้นก็มีแนวโน้มที่องค์กรต้องการบุคลากรด้านนี้จำนวนมากและแต่ละคนอาจทำงานใช้เทคโนโลยีคนละด้านกัน
  • Big Data Analyst หมายถึงนักวิเคราะห์ข้อมูลที่อาจรวมไปถึงการนำข้อมูลมาแสดงผล โดยใช้ Visualisation Tool ที่หลากหลาย โดยในปัจจุบันอาจต้องดึงข้อมูลมาจาก Data Lake และใช้ Tool ใหม่ๆ บางครั้งบุคลากรด้านนี้อาจไม่ได้เก่งด้านการพัฒนาโปรแกรมนัก แต่จะต้องรู้ว่าจะวิเคราะห์ข้อมูลอะไร และมีทักษะในการผลที่ได้มาแสดงให้คนทั่วไปเข้าใจ คนกลุ่มนี้ควรมีพื้นฐานด้านสถิติและรู้ด้านธุรกิจ
  • Data Scientist  ตำแหน่งงานที่ดูน่าสนใจที่สุดในปัจจุบัน แต่ก็ใช่ว่าทุกองค์กรต้องการ เพราะบุคลากรด้านนี้จำเป็นถ้าเราต้องการวิเคราะห์ข้อมูลโดยเฉพาะในลักษณะ Predictive Analytics บุคลากรด้านนี้ต้องรู้เรื่องของ  Algorithm อาจต้องเก่งด้านคณิตศาสตร์ เข้าใจเรื่อง  Machine Learning และต้องมีความเข้าใจด้านธุรกิจที่ต้องการวิเคราะห์ โดยมากคนเก่งทางด้านนี้น่าจะจบปริญญาโทหรือเอกด้านคณิตศาตร์, Computer Science หรือ  Computer Engineering มา

matt_turck_big_data_landscape_v11

รูปที่  1 Big Data Landscape 2016

จากที่กล่าวมาทั้งหมดจะเห็นว่า ในอนาคตองค์กรยังมีความต้องการบุคลากรด้านนี้ที่หลากหลาย และยังมีความต้องการอีกจำนวนมาก ผมคิดว่าถึงเวลาที่หน่วยงานต่างๆต้องมาวางแผนการพัฒนาบุคลากรด้านนี้ร่วมกัน เท่าที่ทราบทาง สำนักงานการอุดมศึกษาก็มีการตั้งอนุกรรมการดูหลักสูตรทั่วประเทศเพื่อพัฒนาคนทางด้านนี้ และได้ให้ผมเข้าร่วม แต่ก็ยังขับเคลื่อนกันช้าอยู่ ถึงเวลาที่เราคงต้องรีบเร่งแล้วครับ

ธนชาติ นุ่มนนท์

IMC Institute

กุมภาพันธ์ 2559