Big Data กับการใช้งานในภาครัฐและอุตสาหกรรมอื่นๆ

การนำข้อมูลขนาดใหญ่ไปใช้งานจริงๆ ยังมีไม่มากนัก ทั้งนี้ด้วยข้อจำกัดในเรื่องของเทคโนโลยีและจำนวนบุคลากรที่มีความสามารถ ซึ่งทางสมาคม PIKOM ของมาเลเซียได้ทำรายงานเรื่อง Global Business Services Outlook Report 2015 ชี้ให้เห็นผลกระทบของเทคโนโลยีด้าน Big Data ในประเทศกลุ่ม APAC และอุตสาหกรรมต่างๆ โดยสรุปมาเป็นตารางดังนี้

ตารางที่ 1 ระดับผลกระทบของเทคโนโลยี Big Data [แหล่งข้อมูลจาก PIKOM]

Screenshot 2016-06-11 08.24.00

ซึ่งจะเห็นได้ว่ากลุ่มอุตสาหกรรมที่มีผลกระทบต่อการประยุกต์ใช้เทคโนโลยี Big Data อย่างมากคือ อุตสาหกรรมด้านการเงินการธนาคาร (BFSI) ด้านโทรคมนาคม ด้านค้าปลีกรวมถึงพาณิชย์อิเล็กทรอนิกส์ (E-commerce) และด้านสุขภาพ ส่วนกลุ่มภาครัฐบาลและกลุ่มอุตสาหกรรมการผลิตมีผลกระทบปานกลาง สำหรับประเทศที่มีการประยุกต์ใช้ Big Data อย่างมากคือสหรัฐอเมริกาและสหราชอาณาจักร โดยประเทศญี่ปุ่น สิงคโปร์ และออสเตรเลียมีผลกระทบการประยุกต์ใช้งานปานกลาง ส่วนประเทศไทยอยู่ในกลุ่มที่เหลือที่ยังมีการประยุกต์ใช้งานน้อย

สำหรับตัวอย่างของการนำเทคโนโลยี Big Data มาใช้งานในภาคอุตสาหกรรมต่างๆ มีดังนี้

  • อุตสาหกรรมค้าปลีก อาจนำมาเพื่อวิเคราะห์ความต้องการของลูกค้า เพื่อทำให้เห็นข้อมูลของลูกค้ารอบด้าน (Customer 360) หรือการแบ่งกลุ่มลูกค้า (Customer Segmentation)  นำมาจัดแผนการตลาด สร้างแคมเปญตอบสนองต่อพฤติกรรมการอุปโภค บริโภค ที่ปรับเปลี่ยนอยู่ตลอดเวลา ให้ดึงดูดลูกค้าเข้ามาจับจ่ายใช้สอยมากที่สุด ในสภาพการแข่งขันที่สูง และมีช่องทางอื่นๆ ใหม่ๆ เข้ามาเป็นทางเลือกมากขึ้น
  • อุตสาหกรรมโทรคมนาคม อาจนำเพื่อใช้ในการวิเคราะห์เครือข่ายโทรศัพท์เคลื่อนที่ วิเคราะห์การใช้งานของลูกค้า การวิเคราะห์แนวโน้มการย้ายค่ายของลูกค้า (Customer Churn) และนำเอาข้อมูลไปต่อยอดเพิ่มการให้บริการอีกมากมาย อีกทั้งยังสามารถนำข้อมูลมาวิเคราะห์ เรื่องความมั่นคงปลอดภัย ให้เป็นประโยชน์กับลูกค้าและเพื่อสาธารณะได้อีกด้วย
  • อุตสาหกรรมการเงิน อาจนำมาเพื่อวิเคราะห์การฉ้อโกงเงิน การคาดการณ์ความต้องการของลูกค้า การแบ่งกลุ่มลูกค้า และการวิเคราะห์ความเสี่ยงของลูกค้า
  • ด้านวิทยาศาสตร์และเทคโนโลยีเช่น การพยากรณ์อากาศ การคาดการณ์ข้อมูลน้ำ หรือการวิเคราะห์ข้อมูลจากเซ็นเซอร์ต่างๆ การใช้งานพลังงาน
  • งานด้านการตลาด อาจนำมาเพื่อวิเคราะห์ข้อมูลจากเครือข่ายสังคมออนไลน์ (Social Media) การวิเคราะห์ข้อมูลที่พูดถึงสินค้าหรือแบรนด์ของหน่วยงาน (Sentiment Analysis) การค้นหาลูกค้าใหม่ๆ บนโลกออนไลน์
  • งานด้านบันเทิง หรือการท่องเที่ยว เป็นการวิเคราะห์กระแส ความนิยม talk of the town ในแต่ละกลุ่มบริการซึ่งมีส่วนเกี่ยวโยงกับ ข้อมูล ความคิดเห็น ในโซเชียลมีเดีย เป็นส่วนใหญ่ เพื่อจัดโปรแกรมหรืองาน ที่สร้างความสนใจให้ได้ตรงกับความสนใจของตลาด ในแต่ละช่วง แต่ละเวลา กับกลุ่มเป้าหมายที่ต่างกันไป

การประยุกต์ใช้งาน Big Data ในภาครัฐ

สำหรับตัวอย่างการใช้ประยุกต์ใช้งาน Big Data ในภาครัฐสามารถนำมาใช้งานได้ในหลายๆ หน่วยงานเช่น ด้านสาธารณสุข ด้านวิทยาศาสตร์ ด้านความมั่นคง ด้านการเงิน ด้านการบริการประชาชน ด้านเกษตรกรรม ด้านสาธารณูปโภค หรือด้านคมนาคม อาทิเช่น

  • การใช้เพื่อวิเคราะห์ข้อมูลอุตุนิยมวิทยาในการพยากรณ์อากาศ
  • การใช้เพื่อวิเคราะห์ข้อมูลการจราจร
  • การวิเคราะห์ข้อมูลเพื่อลดปัญหาและป้องกันการเกิดอาชญากรรม
  • การวิเคราะห์ข้อมูลด้านสาธารณสุข เช่น แนวโน้มของผู้ป่วย การรักษาพยาบาล หรือการเกิดโรคระบาด
  • การวิเคราะห์ข้อมูลด้านน้ำ แหล่งน้ำ ปริมาณฝน และการใช้น้ำ
  • การวิเคราะห์ข้อมูลการใช้ไฟฟ้า ค่าการใช้พลังงาน
  • การวิเคราะห์ข้อมูลการทหารและความมั่นคงต่างๆ
  • การวิเคราะห์ข้อมูลเพื่อตรวจสอบการเสียภาษีของประชาชนหรือบริษัทห้างร้านต่างๆ

ข้อดีของการประยุกต์ใช้เทคโนโลยี Big Data ในภาครัฐสามารถสรุปได้ดังนี้

  1. การใช้เงินงบประมาณและเงินรายได้ต่างๆ ของภาครัฐจะมีประสิทธิภาพมากขึ้น เพราะ Big Data จะช่วยคาดการณ์และวิเคราะห์ได้แม่นยำมากขึ้น
  2. ภาครัฐสามารถที่จะตรวจสอบข้อมูลการใช้งบประมาณได้ดียิ่งขึ้น
  3. ภาครัฐจะมีรายได้มากขึ้นหากมีการนำ Big Data มาใช้วิเคราะห์ข้อมูลการเสียภาษีด้านต่างๆ ว่ามีความถูกต้องเพียงใด
  4. ประชาชนจะได้รับการบริการที่ดีขึ้น เช่นการนำมาแก้ปัญหาจราจร  การให้บริการสาธารณสุข การให้บริการสาธารณูปโภค
  5. ประชาชนจะมีคุณภาพชีวิตที่ดีขึ้น เช่นเพิ่มความปลอดภัยโดยการวิเคราะห์แนวโน้มอาชญากรรม การมีสุขภาพที่ดีขึ้นจากการวิเคราะห์ข้อมูลสาธารณสุข
  6. เกิดความร่วมมือกับภาคเอกชนมากขึ้น จากการนำข้อมูลไปใช้
  7. จะมีข้อมูลใหม่ๆ มากขึ้นจากประชาชน (Crowdsourcing) หรือข้อมูลจากอุปกรณ์  Internet of Things
  8. เป็นการสร้างทักษะและผู้เชี่ยวชาญด้านข้อมูลมากขึ้น

อย่างไรก็ตามความท้าทายของการประยุกต์ใช้เทคโนโลยี Big Data ยังอยู่ที่ความร่วมมือของหน่วยงานต่างๆ โดยอาจสรุปปัญหาต่างๆ ที่ควรแก้ไขดังนี้

  1. วัฒนธรรมของหน่วยงานจำนวนมากที่จะรู้สึกหรือคิดว่าข้อมูลเป็นของหน่วยงานตนเอง โดยไม่มีการแชร์ข้อมูลให้กับหน่วยงานภายนอกหรือหน่วยงานอื่นในองค์กรเดียวกัน
  2. คุณภาพของข้อมูลที่อาจไม่สมบูรณ์หรือขาดความถูกต้อง
  3. ปัญหาเรื่องข้อมูลที่เป็นสิทธิส่วนบุคคล หรือความเท่าเทียมกันของการเข้าถึงข้อมูลของภาคประชาชน
  4. การขาดบุคลากรที่มีความสามารถทางด้านเทคโนโลยี Big Data

ดังนั้นสิ่งที่ภาครัฐควรจะต้องเร่งทำเพื่อให้มีการประยุกต์ใช้ Big Data ในองค์กรคือ

  1. พัฒนาความรู้ความเข้าใจในการประยุกต์ใช้เทคโนโลยี Big Data  และสร้างวัฒนธรรมการร่วมมือการแชร์ข้อมูล
  2. ออกกฎหมายหรือกฎระเบียบเพื่อให้เกิดการเปิดข้อมูลของภาครัฐ (Open Data)
  3. พัฒนาทักษะบุคลากรให้มีความรู้ด้านเทคโนโลยี Big Data  
  4. มีหน่วยงานกลางที่ให้บริการเทคโนโลยี Big Data เพื่อไม่ให้เกิดการลงทุนซ้ำซ้อน และไม่ควรให้ทุกหน่วยงานลงทุนซื้อเทคโนโลยีมากเกินไป

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

Big Data School กับการติดตั้ง Hadoop Distributions

 

ตามที่ผมเคยเล่าไว้ว่าเราจะจัด Big Data School รับนักศึกษา  15 คนมาฝึกงานสองเดือนในช่วงปิดเทอม โดยโครงการนี้เป็นงานที่ IMC Institute จัดร่วมกับ ICE Solution สุดท้ายเราก็ได้รับนักศึกษามาจากที่ต่างๆทั้ง จุฬาลงกรณ์มหาวิทยาลัย ลาดกระบัง พระนครเหนือ มหาวิทยาลัยราชมงคลรัตนโกสินทร์ ธุรกิจบัณฑิต หรือมาไกลๆจาก มหาวิทยาลัยนครพนม มหาวิทยาลัยฟาฏอนี หรือนักศึกษาไทยในต่างประเทศอย่าง Wesleyan University โดยเราเริ่มโครงการนี้ตั้งแต่วันที่  31 พฤษภาคม 2559

1465536090096

โครงการที่ทำในสัปดาห์แรกนอกจากมีเรื่องของกลุ่มสัมพันธ์แล้ว เราก็เริ่มสอนให้นักศึกษาใช้ Cloud เรื่องรู้และได้ทดลองระบบ Cloud ต่างๆทั้ง Amazon Web Services (AWS), Google Cloud และ  Microsoft Azure  โดยได้ทดลองใช้ EC2, RDS และ Auto-scaling  ซึ่งความรู้จากการใช้ Cloud Services นี้ก็เพื่อที่จะนำไปใช้ในการติดตั้ง Big Data Platform  ต่างๆ

นอกเหนือจากการเรียนรู้เรื่อง Cloud แล้วในสัปดาห์แรกก็ยังมีการแนะนำ Big Data Technology ต่างๆ และนักศึกษาเองก็เริ่มได้เห็นกับ Hadoop Technology ทดลองเล่น Hadoop Cloudera  ขนาด 5 เครื่องใหญ่ที่ติดตั้งบน  Cloud Cluster  ที่เป็น Account ของ  IMC Institute

ในสัปดาห์ที่สอง ตอนต้นเราเริ่มสอนตั้งแต่การใช้  Vitualization Tool อย่าง VirtualBox และ Container อย่าง  Docker จากนั้น เราก็แบ่งกลุ่มให้ใช้ Hadoop Sandbox ที่เป็น Distribution ต่างๆ เช่น

 

โดยในเบื้องต้นให้  VM ที่เป็น VirtualBox ลงที่เขียนตัวเอง จากนั้นก็เปลี่ยนไปให้ Docker โดยใช้ Virtual Server ที่เป็น Amazon EC2  ที่น่าสนใจคือนักศึกษาได้ทำกันสมบูรณ์และเขียนสรุปกันมาเป็น Slide ให้คนสามารถไปติดตั้งต่อได้ดังนี้

ตอนนี้นักศึกษากำลังติดตั้ง Hadoop Cluster ทั้ง 4 distributions โดยจะลงในเครื่อง Server ขนาดใหญ่ 4 เครื่องซึ่งถ้ามี  Slide และข้อมูลดีๆผมจะมา Update  อีกครั้ง

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

 

 

 

การเปลี่ยนแปลงของอุตสาหกรรมไอทีไทยในยุค Cloud Computing

Screenshot 2016-06-05 22.21.12

ประมาณ 7-8 ปีก่อนสมัยผมยังทำงานอยู่ Software Park  ผมพยายามจะบอกกับกลุ่มบริษัทไอทีและซอฟต์แวร์ต่างๆว่า Cloud Computing  จะเป็นเทคโนโลยีที่เปลี่ยนแปลงรูปแบบของอุตสาหกรรมไอทีไปอย่างมาก ต่อไปเราคงไม่สามารถที่จะตืดตั้งระบบในรูปแบบเดิมได้ การใช้งานไอทีก็จะไม่เหมือนเดิม การขายระบบก็จะแตกต่างไปจากเดิม

แม้ในตอนนั้นภาพยังไม่ชัดเจนนัก แต่ในปัจจุบันข้อมูลต่างๆและแนวโน้มของอุตสาหกรรมไอทีได้บ่งชี้อย่างชัดเจนแล้วว่า Cloud Computing กำลังเข้ามาเปลี่ยนแปลงอุตสาหกรรมจริงๆ โดยเฉพาะแนวโน้มของตลาดโลกที่น่าจะต้องมีผลกระทบต่อวงการอุตสาหกรรมไอทีไทย เพื่อให้เห็นภาพของการเปลี่ยนแปลงของอุตสาหกรรมไอทีโลก เราอาจเห็นประเด็นต่างๆดังนี้

  • ตลาด Tradition IT ด้าน IT Infrastructure จะลดลงไปเรื่อยๆ และตลาด Public Cloud จะโตขึ้นอย่างรวดเร็วดังแสดงให้เห็นในรูปที่ 1 ที่ IDC คาดการณ์ว่าตลาด Tradition IT จะเหลือเพียงแค่ 55% ในปี  2019 ซึ่ง IDC ก็มีข้อมูลอีกชุดที่ออกมาต้นปี 2016 ทีระบุสอดคล้องกันว่าสัดส่วนของมูลค่าการลงทุนด้านไอทีที่เป็น Cloud กับ Non-cloud จะกลายเป็น 43% ต่อ 57% ใน 24 เดือนข้างหน้า และจะเป็น external cloud ถึง 32.1% และเป็น Private Cloud  11% ดังแสดงในรูปที่ 2
  • ตลาด Cloud จะโตขึ้นเป็น 500,000 ล้านเหรียญสหรัฐในปี 2026  ดังแสดงในรูปที่ 3 โดยตลาดส่วนใหญ่จะเป็น Software as a Service (SaaS)
  • ตลาด Cloud Computing ทำให้ผู้เล่นในตลาดเปลี่ยนไป อาทิเช่น ผู้นำตลาด IaaS กลับป็นบริษัทที่ไม่เคยเป็นผู้ผลิต Hardware มาก่อนเช่น  Amazon Web Services หรือ  Microsoft ขณะที่ Vendor ซึ่งเคยเป็นผู้นำในตลาด Hardware  อย่าง IBM, HP หรือ Sun-Oracle กลับไม่ได้เป็นผู้นำดังแสดงในรูปที่  4-5
  • ตลาด SaaS ทำให้รูปแบบการขายซอฟต์แวร์เปลี่ยนจาก License model ป็น  subscription model และทำให้มีผู้เล่นหลากหลายมากขึ้น โดยผู้นำตลาดอาจเปลี่ยนเป็นบริษัทอย่าง Salesforce หรือ Microsoft ดังแสดงในรูปที่  6
  • Vendor  ที่ขาย  Hardware ก็ต้องมุ่งขายไปให้กับลูกค้ากลุ่ม Cloud Provider มากขึ้น และหากเป็นกลุ่ม Enterprise ก็จะต้องเป็น Hardware สำหรับ Private Cloud ซึ่งผู้นำตลาดในกลุ่มของ Cloud Infrstructure จะเป็นบริษัทอย่าง HP Enterprise, Dell  และ Cisco  ดังแสดงในรูปที่  4 และ 7
  • บริษัทไอทีต่างๆต้องปรับตัว แม้แต่ Microsoft ทีในอดีตเป็นบริษัทซอฟต์แวร์ที่เน้นขาย Windows ก็ต้องปรับตัวเองเป็นผู้ขาย Cloud Infrstructure ที่ใช้ Platform ได้ก็ได้แม้แต่ Linux หรือ Java

เมื่อเห็นการเปลี่ยนแปลงของอุตสาหกรรมไอทีโลกแล้ว ก็น่าสนใจว่า Cloud Computing จะมีผลกระทบต่ออุตสาหกรรมไอทีไทยอย่างไร และเราเองจะต้องปรับตัวอย่างไร ผมเลยอยากขอเสนอมุมมองต่างๆดังนี้

  • Cloud Computing  จะทำให้ Cloud Vendor ต่างประเทศมีความจำเป็นจะต้องพึ่งผู้จำหน่ายในประเทศน้อยลง แม้ในระยะแรกอาจต้องหา  local distributor เพื่อบุกตลาดภายในประเทศ แต่ในระยะยาวความจำเป็นก็จะน้อยลง และ Margin ในการขายก็จะน้อยลง
  • Cloud computing จะทำให้ผู้ขายฮาร์ดแวร์ในประเทศต้องเปลี่ยนแปลงอย่างมาก การขาย Hardware  ในองค์กรขนาดเล็กจะเป็นเรื่องที่ยากขึ้นมากเพราะกลุ่มนี้ในอนาคตมีแนวโน้มไปใช้ Public Cloud ส่วนองค์กรขนาดใหญ่ก็จะมีแนวโน้มที่จะต้องพัฒนา Private Cloud มากขึ้น
  • ผู้ผลิตซอฟต์แวร์ในประเทศจำเป็นต้องปรับรูปแบบการพัฒนาซอฟต์แวร์เพื่อเข้าสู่ระบบ Cloud มากขึ้น และคงไม่สามารถขายซอฟต์แวร์ในราคาสูงแบบเดิม คงต้องเน้นเป็นแบบ SaaS มากขึ้น โดยเฉพาะกลุ่มที่เป็น SME เว้นแต่จะเป็นการพัฒนาซอฟค์แวร์ให้กับองค์กรขนาดใหญ่ที่อาจเป็นงาน customize ที่มีราคาดี หรือการขายระบบ  core application บางอย่าง
  • Cloud Computing จะทำให้งานทางด้าน System Integrator น้อยลง เนื่องจากระบบต่างๆจะมีความจำเป็นต้องการทำ customize หรือการทำ Integration น้อยลง

โดยสรุปจะเห็นได้ว่า โอกาสการแข่งขันของอุตสาหกรรมไอทีในอนาคตค่อนข้างจะลำบาก เราอาจจำเป็นต้องปรับธุรกิจไอที จากเดิมที่เน้นเป็น System Integrator, Hardware Distributor, License software vendor  มาสู่ผู้ให้บริการ Cloud ทั้งในส่วนของ SaaS หรือแม้แต่  IaaS  เราคงต้องเน้นที่จะต้องพัฒนาบุคลากรให้สามารถพัฒนา IT Emerging Technology  ต่างๆให้ได้ และต้องพยายามสร้างนวัตกรรมทางด้านให้มากขึ้นถึงจะแข่งขันในอนาคตได้

ธนชาติ นุ่มมนท์

IMC Institute

13087291_641282319352445_895269863284759965_n

รูปที่  1 การคาดการณ์ตลาด IT Infrastructure ของ IDC

13254734_10208479813506999_5246242415168747093_o

รูปที่ 2 การคาดการณ์งบประมาณด้านไอทีในอีก 2 ปีข้างหน้าของ IDC

Screenshot 2016-06-05 21.08.16

รูปที่ 3 การคาดการณ์มูลค่าของตลาด  Cloud ถึงปี 2026

13124736_642506239230053_3463226411031040896_n

รูปที่ 4  ข้อมูลการแสดงอัตราการเติบโตของตลาด Cloud ในไตรมาส 3  ปี  2015

Screenshot 2016-06-05 21.14.04

รูปที่ 5 ส่วนแบ่งการตลาด IaaS ไตรมาส 4 ปี 2015

Screenshot 2016-06-05 21.14.21

รูปที่ 6 ส่วนแบ่งการตลาด SaaS ครึ่งปีแรกปี 2015

13015178_633690320111645_3513477429709273579_n

รูปที่ 7 ส่วนแบ่งการตลาดสำหรับ IT Cloud Infrstructure ในปี 2015

 

การฝึกงานแบบ Big Data School ของ IMC Institute ปิดเทอมนี้

วันก่อนน้องที่สนิทท่านหนึ่งเอารายการทีวีดูให้รู้ ตอน “โรงเรียนฝึกคนหัวใจเพชร” เป็นโรงเรียนฝึกเด็กช่างไม้ในญี่ปุ่น สอนเด็กให้แกร่ง อดทน มีวินัยและใช้สมอง เห็นความยากลำบากในการเรียนกว่าจะออกมาเป็นช่างไม้ที่เก่งและมีคุณภาพ น้องถามว่าเราทำโรงเรียนพัฒนา Developer อย่างนี้ในเมืองไทยไหม เราคุยกันว่าอยากจะทำแต่ก็ยังไม่ได้ลงมือทำอะไรมากนัก

พฤษภาคมนี้ผมกำลังย้ายออฟฟิทของ IMC Institute ไปอยู่ตึกสกุลไทย แถวสุริวงศ์เราคงมีพื้นที่กว่างขึ้น มีห้องฝึกอบรมที่พร้อมจะรองรับผู้เรียนได้จำนวนหนึ่ง การอบรมส่วนใหญ่ของ IMC Institute ยังคงอยู่ข้างนอก แต่ห้องอบรมนี้ผมได้บอกกับทีมงานว่าเราใช้งานเพื่อสังคม งาน CSR งานอบรมฟรีราคาถูกมากที่นี่เลยไม่ว่าจะเป็นงาน Big Data Challenge, Big Data User Group, Train the trainers ตลอดจนกิจกรรมอื่นๆที่เราคงสามารถทำอะไรได้มากขึ้น

ผมก็เลยเริ่มคิดถึงการฝึกคน ผมอาจจะยังไม่สามารถทำโรงเรียนฝึก Developer หัวใจเพชรได้ทันที แต่ก็นึกขึ้นมาว่าวันนี้เราหา Developer เก่งๆได้ยากโดยคนที่จะซื่อสัตย์และตั้งใจทำงานให้กับหน่วยงาน ไม่ใช่แค่คิดหวังจะร่ำรวย นอกเหนือจากมีความรู้ ก็ต้องอดทนและมีจริยธรรมที่ดี เรามาฝึกงานเขาไหม? อาจเป็นช่วงเวลาสั้นๆ 2-3 เดือน พอฝึกงานเสร็จมาเขาจะกลับไปเรียนต่อหรือไปทำงานที่ไหนก็ตามอย่างน้อยเราก็ได้สร้างประโยชน์ให้กับสังคมบ้าง พอคิดได้อย่างนี้ก็เริ่มคุยกับเพื่อนและอาจารย์บางคนแล้วบอกว่า กลางเดือนพฤษภาคมนี้ผมจะทำ Big Data Intern School ฝึกงานนักศึกษาซัก 6-7 คนให้ทำ Big Data แล้วก็ลองร่างสิ่งที่จะฝึกเขาดังนี้

  • การเรียนรู้หลักการของ Big Data
  • สามารถติดตั้งระบบ Big Data ได้ไม่ว่าจะเป็น Apache Hadoop, Cloudera, Hortonworks, Amazon EMR และ Microsoft Azure HDInsight
  • เปิดระบบ Cloud Computing อย่าง Amazon AWS และ Microsoft Azure ให้เล่นเต็มที่
  • สามารถติดตั้งระบบNoSQL ต่างๆอย่าง Cassandra, NoSQL, MongoDB
  • เรียนรู้การประมวลข้อมูลขนาดใหญ่โดยใช้ Hive, Impala, Spark
  • สามารถที่จะดึงข้อมูลเข้าโดยใช้เทคโนโลยีอย่าง Sqoop, Flume, Kafka
  • เรียนรู้การทำ  Machine Learning โดยใช้ภาษา R, Spark MLib หรือเครื่องมืออย่าง Azure Machine Learning
  • ทำโปรเจ็คด้าน Big Data กับบริษัท

พอคิดได้อย่างนี้ก็รู้ว่าส่วนหนึ่งคงต้องสอนเอง บางอย่างก็ต้องไปเชิญอาจารย์ท่านอื่นๆมาสอนทั้งที่บริษัทหรือ Teleconference รวมถึงบางอย่างอาจต้องให้เรียนผ่าน Online Class บน YouTube โดยคนมาฝึกงานคงไม่มีค่าใช้จ่ายและได้เรียนรู้สิ่งต่างๆเหล่านี้แต่คงต้องมีกฎเกณฑ์

  • ไม่มีค่าใช้จ่ายใดๆ
  • ผู้เข้าฝึกงาน (อบรม)  ต้องกำลังศึกษาหรือสำเร็จการศึกษาในระดับปริญญาตรีสาขาวิศวกรรมคอมพิวเตอร์ วิทยากรคอมพิวเตอร์ หรือเทคโนโลยีสารสนเทศ
  • อายุไม่เกิน 24 ปี
  • มีความตั้งใจจะเข้าฝึกงานจริงจัง อาจเป็นส่วนหนึ่งของการจบการศึกษาหรือไม่ก็ได้
  • สามารถเข้าฝึกงานได้ตั้งแต่วันจันทร์-เสาร์ เวลา เวลา 8.30 – 17.30 น.
  • ต้องเข้ามาฝึกงานทุกวันตามข้อตกลงและต้องมีเวลาเข้าฝึกงานไม่น้อยกว่า 95%
  • ผู้เข้าฝึกงานต้องเขียนรายงานส่งทุกวัน หากไม่ส่งถือว่าเป็นการยุติการฝึกงาน
  • หากมาสายเกิน 4 ครั้งโดยไม่มีเหตุผลถือว่าเป็นการยุติการฝึกงาน
  • จะมีการสอบและวัดผลสัมฤทธิ์ของการฝึกงาน และทางสถาบันจะออกใบรับรองว่าผ่านการฝึกงาน และผู้ที่ผ่านหากต้องการไปฝึกงานหรือทำสหกิจศึกษา การทำโครงการเพิ่มเติมระหว่างเรียน ทางสถาบันจะติดต่อและให้การรับรองให้

ทั้งนี้ผมเองได้กำหนดโปรแกรมการฝึกงานคร่าวๆดังนี้

30 พฤษภาคม วันแรกแรกการฝึกงาน จัดปฐมเทศ อบรมระเบียบวินัย ศึกษาแนวโน้มของเทคโนโลยี และพูดคุยเพื่อหาคำตอบว่า ทำไมการศึกษาในยุคปัจจุบันทำให่คนเรียนด้านคอมพิวเตอร์ตกงาน

30พฤษภาคม – 4 มิถุนายน เรียนรู้ระบบ Public Cloud ของค่ายต่างอาทิเช่น Amazon Web Services, Microsoft Azure การใช้บริการต่างๆ อาทิเช่น Virtual Server, Cloud Storage, Auto-Scaling Servers, Application Development Servers, Docker Servet

6 – 11 มิถุนายน เรียนรู้หลักการของ Big Data การติดตั้ง Apache Hadoop การติดตั้ง Hadoop Cluster และการติดตั้ง Cloudera/Hortonworks Cluster

13-18 มิถุนายน  เรียนรู้บริการต่างๆของ Hadoop ต่อ การใช้บริการต่างๆทั้ง  Flume, Sqoop, Kafka, Cloudera Manager, Amabari และให้เขียนข้อสรุปเปรียบเทียบ Big Data ต่างๆ

20-25 มิถุนายนเรียนรู้ NoSQL และติดตั้งระบบต่างๆทั้ง Cassandra, MongoDB และ HBase ร่วมถึงระบบอย่าง ElasticSearch และ Solr

27 มิถุนายน – 2 กรกฎาคม เรียนรู้การประมวลผลข้อมูลขนาดใหญ๋ผ่าน SQL โดยใช้ Hive หรือ Impala พร้อมทั้ง Mini-Project

4-9 กรกฎาคม เรียนรู้ Spark และการพัฒนาโครงการโดยใช้ Spark

11-16 กรกฎาคม  เรียนรู้ Machine Learning การใช้เครื่องมือและภาษาต่างๆอาทิเช่น R, MLib และ Azure Machine Learning

20-28 กรกฎาคม ทำ Mini-Project ให้เสร็จพร้อมทั้งเตรียมนำเสนอ

29 กรกฎาคม นำเสนอ Mini-Project และปิดการฝึกงาน

ผมเขียนเล่ามาเพื่อที่จะบอกว่าผมคิดจะทำอะไร มันเป็นความคิดที่จะลงมือทำจริงๆ ถ้าน้กศึกษาหรือใครที่สนใจมีตามเกณฑ์ที่ผมบอกสนใจ ลองส่งประวัติมาที่ contact@imcinstitute.com และเขียนบทความสั้นๆมาให้หนึ่งหน้าว่า “Before I die…”

ขอบคุณครับ

ธนชาติ นุ่มนนท์

IMC Institute.

มีนาคม 2559

 

 

 

IMC Institute ให้ทุนอบรม Big Data Certification 120 ชม.สองทุน

 

IMC Institute  จะเปิดหลักสูตร Big Data Certification ที่เรียนเข้มข้น 120 ชั่วโมง วันพฤหัสบดีตอนเย็น 18.00-21.00 และวันเสาร์ทั้งวันรุ่นที่ 3 โดยเริ่มสอนตั้งแต่วันที่ 17 มีนาคม 2559 หลักสูตรเปิดมาแล้วสองรุ่น รุ่นหนึ่งเรียน 30 คนในปีที่แล้ว โดยมีอาจารย์สอนร่วมกันหลายท่าน ทั้งเรื่องของหลักการ  Big Data การใช้เทคโนโลยีต่างๆ ทั้ง Hadoop, NoSQL, Big Data on Cloud, BI Tool การประมวลผลในรูปแบบต่างๆ เรียนรู้เรื่อง Machine Learning

IMC Institute มองเห็นความสำคัญของการพัฒนาบุคลากร Big Data ในบ้านเราและได้จัดอบรมและกิจกรรมสัมมนาทางด้านนี้ อย่างต่อเนื่อง มีทั้งฟรีสัมมนา หลักสูตรราคาที่เหมาะสม การจัด Big Data User Group การจัดอบรมแบบฟรีในลักษณะ Big Data Challenge การให้ทุนบุคลากรในภาคส่วนต่างๆ การจัด Train the Trainer ให้กับอาจารย์สถาบันอุดมศึกษา แม้ IMC Institute จะเป็นหน่วยงานเอกชนแต่ก็ตระหนักถึงความรับผิดชอบที่จะต้องช่วยพัฒนาบุคลากรด้านไอทีของประเทศซึ่งบางครั้งจำเป็นต้องช่วยหน่วยงานของรัฐในการทำ จึงได้ทำกิจกรรมต่างๆเหล่านี้ ทั้งนี้ในรอบ  3 ปีที่ผ่านมา IMC Institute ได้จัดอบรมหลักสูตรด้าน Big Data จำนวน 60  ครั้ง จัดฟรีสัมมนา/กิจกรรมจำนวน 8 ครั้งโดยมีผู้มาร่วมทั้งสิ้น 1,735 ราย

download (3)

การพัฒนาอาจารย์อุดมศึกษาเรื่องของ Big Data ทางสถาบันไอเอ็มซีเคยจัด Train the Trainer มาแล้วสองรุ่น โดยเก็บค่าเรียนเพียง 5,500 บาทเพื่อให้เพียงพอกับค่าเช่าห้องอบรมและค่าอาหารในเวลา 5  วัน โดยงานทั้งสองก็เป็นการใช้เงินของสถาบันเองในการทำงาน และปีนี้ก็ตั้งใจจะจัดหลักสูตร Train the Trainers อีกครั้งในเดือนกรกฎาคม อาจารย์ท่านใดสนใจก็โปรดติดตามข้อมูลอบรมนี้ที่จะประกาศเร็วๆนี้

สำหรับหลักสูตร  Big Data Certification  ในสองรุ่นที่ผ่านมา ทาง  IMC Institute ให้ทุนอบรมฟรีมาแล้วรุ่นละสองทุน โดยรุ่นแรกให้กับอาจารย์สถาบันอุดมศึกษาสองท่านและรุ่นที่สองให้กับหน่วยงานภาครัฐสองท่าน นอกจากนี้ทางสำนักงานรัฐบาลอิเล็กทรอนิกส์ก็ได้มอบทุนมาให้กับบุคลากรภาครัฐทั้งสองรุ่น โดยรุ่นแรกมีจำนวน  10 คนและรุ่นที่  2  จำนวน  5 คน

ในหลักสูตร Big Data Certification รุ่นที่สามนี้เรามีการปรับปรุงเนื้อหาเล็กน้อย โดยจะเน้นให้มีการทำ  Mini-Project และมีการติดตั้งระบบจริงบน Cloud Server มากขึ้น มีการสอนระบบประมวลผลใหม่ที่เน้น Spark และ R มีการนำเครื่องมือใหม่ๆเช่น  Tableau  เข้ามา โดยสิ่งที่ตั้งใจจะอบรมมีเครื่องมือหลักๆดังนี้

  • Hadoop Distribution: Apache, Cloudera  และ  Amazon EMR
  • NoSQL: Cassandra, Mongo DB และ HBase
  • Visualisation Tools: Tableau  และ Microsoft SQL Server
  • Big Data Processing: MapReduce, Spark, Hive, Pig, R และ Impala
  • Big Data Ingestion: Sqoop  และ Flume
  • Machine Learning: Microsoft Azure ML , R และ Spark MLib
  • Cloud Platform: Amazon Web Services และ Microsoft Azure

ผู้สนใจสามารถที่จะหาดูรายละเอียดข้อมูลได้ที่ www.imcinstitute.com/bigdatacert

สำหรับหลักสูตร Big Data Certification  รุ่นนี้ทาง IMC Institute  ตั้งใจจะมอบทุนอบรมฟรีให้กับอาจารย์สถาบันอุดมศึกษาอีก  2  ท่าน เหตุผลที่เราพยายามเน้นมอบให้กับอาจารย์เพราะคิดว่าอาจารย์สามารถที่จะนำความรู้ไปสอนนักศึกษาต่อและขยายผลได้ โดยได้กำหนดคุณสมบัติไว้ดังนี้

  • เป็นอาจารย์สอนในระดับอุดมศึกษาในสถาบันของรัฐหรือเอกชน
  • มีอายุตั้งแต่ 28 ปีขึ้นไป
  • ต้องสามารถมาเรียนได้อย่างน้อยร้อยละ 85 ของการเรียน
  • สามารถที่จะนำไปสอนหรือทำงานวิจัยต่อไปได้

ทั้งนี้ IMC Institute อยากให้ผู้ที่สนใจเขียนประวัติและแรงจูงใจที่อยากเรียนหลักสูตร Big Data Certification ส่งอีเมลมาที่ contact@imcinstitute.com  ภายในวันที่  5 มีนาคม 2559  และถ้า IMC Institute จะขออนุญาตเชิญผู้ที่ผ่านการคัดเลือกรอบแรกมาสัมภาษณ์ระหว่างวันที่ 6-10 มีนาคม และจะประกาศผลในวันที่  11  มีนาคม 2559

ธนชาติ นุ่มนนท์

IMC Institute

กุมภาพันธ์ 2559

 

 

 

Data Lake: Redefine Data WareHouse

 

วันที่ 3  มีนาคมนี้ทาง IMC Institute จะจัดฟรีสัมมนา Big Data User Group 1/2016 โดยครั้งนี้เป็น Theme  เรื่อง Data Lake: Redefine Data WareHouse ซึ่งงานนี้ได้รับการสนับสนุนจาก  Hitachi Data Systems และบริษัท Vintcom โดยมีสำนักงานรัฐบาลอิเล็กทรอนิกส์ (องค์กรมหาชน) หรือ EGA มาร่วมจัดงาน

เมื่อถึงหลักการของการพัฒนาระบบข้อมูล ในอดีตเราก็จะนึกถึงการทำ DataBase ตามด้วยการทำ Data WareHouse จนบางครั้งบางคนคิดไปว่าเราต้องทำโปรเจ็ค Data WareHouse เพื่อที่จะจัดระเบียบข้อมูลในหน่วยงาน ทำ Data Cleansing และ Data Governance ต่างๆก่อนที่จะทำโครงการ Big Data ซึ่งรูปแบบในการทำ Data WareHouse โดยมากมักจะมีขั้นตอนต่างๆคือ

  • การออกแบบระบบจาก Top Down หรือ  Bottom Up
  • กำหนด  Data Model
  • Extract Transform Load (ETL)
  • การทำ Data Governance
  • จัดหา BI Tool สำหรับ Data WareHouse
  • จัดทำรายงาน

ขั้นตอนการทำ Data WareHouse จะเป็นรูปแบบเดิมที่เน้นข้อมูลที่เป็น Structure แล้วจึงทำการดึงข้อมูลมาวิเคราะห์  (Structure -> Ingest -> Analyse)  โดยจะต้องใช้ทรัพยากรที่มีความจุจำกัดและไม่มีความหลากหลาย แต่ในโลกของ Big Data ข้อมูลจะมีความหลากหลาย จะมีจำนวนเข้ามามหาศาลและเพิ่มขึ้นอย่างไม่จำกัด ดังนั้น เราจำเป็นจะต้องเปลี่ยนหลักการเป็น การดึงข้อมูลหลากหลายชนิดทำการวิเคราะห์แล้วจึงทำการเก็บจ้อมูล (Ingest -> Analyse -> Structure)

หลักการที่กล่าวใหม่ข้างต้นคือ Data Lake ซึ่งเป็นเรื่องใหม่ในโลกของ Big Data ที่ใช้ในปัจจุบัน ซึ่งจะประกอบไปด้วย Component ต่างๆดังรูปที่ 1 และเหตุที่หลักการเปลี่ยนแปลงไปก็เพราะเทคโนโลยี Big Data ใหม่ได้ช่วยทำให้สิ่งต่างๆเหล่านี้ทำได้ดังรูปที่ 2 อาทิเช่น

  • เทคโนโลยีการเก็บข้อมูล Unstructure ขนาดใหญ่อย่าง Hadoop HDFS, Amazon S3 หรือ NoSQL
  • เทคโนโลยีในการประมวลผลข้อมูลอย่าง MapReduce, Hive, Spaek, Impala
  • เทคโนโลยีในการทำ Data Acquisition อย่าง KafKa, Sqoop, Flume
  • เทคโนโลยีในการแสดงผลข้อมูลใหม่อย่าง  Pentaho BI, Tableau

Screenshot 2016-02-21 08.45.13.png

รูปที่ 1 Data Lake Components [Source: Building the Enterprise Data Lake: A look at architecture,  Mark Madsen]

Screenshot 2016-02-21 08.26.19

รูปที่ 2 หลักการของ  Data Lake

ความแตกต่างระหว่าง Data Lake เมื่อเทียบกับ Data WareHouse ที่สำคัญมีดังนี้

  • Data Lake จะเก็บข้อมูลทั้งหมด
  • Data Lake สนับสนุนข้อมูลทุกชนิดไม่แค่ข้อมูลแบบ Structure
  • Data Lake มีเพื่อให้ผู้ใช้ทุกประเภทสามารถใช้งานได้
  • Data Lake สามารถติดตั้งได้ง่ายและเปลี่ยแปลงได้เร็ว
  • Data Lake จะประมวลและวิเคราะห์ข้อมูลได้รวดเร็วกว่า

ซึ่งทาง  AWS ก็สรุปความแตกต่างระหว่าง Data Lake และ Data WareHouse ไว้ดังรูปที่ 3

Screenshot 2016-02-21 08.31.58

รูปที่ 3 Data Lake v.s Data WareHouse

สำหรับรายละเอียดทั้งหมดคงได้มาฟังกันในงานสัมมนาวันที่ 3 มีนาคมนี้ แต่ต้องขอบอกว่าตอนนี้ที่นั่งเต็มและปิดรับลงทะเบียนแล้ว

ธนชาติ นุ่มมนท์

IMC Institute

กุมภาพันธ์ 2559

ความต้องการบุคลากรทางด้าน Big Data

 

Big Data เป็นเรื่องที่กล่าวขานกันอย่างมากในปัจจุบัน และอาจเป็นเทคโนโลยีไอทีเพียงไม่กี่อย่างที่กล่าวกันมากในวงการธุรกิจ กลุ่มผู้บริหารเริ่มเห็นความสำคัญของการนำข้อมูลขนาดใหญ่มาวิเคราะห์หรือคาดการณ์แนวโน้มของธุรกิจ เรื่อง Big Data ยังเป็นเรื่องใหม่ คนจำนวนมากย้งไม่เข้าใจเรื่องนี้อย่างแท้จริง มันเหมือนศัพท์ขั้นเทพที่ทุกคนอยากกล่าวถึงแต่ก็ย้งไม่เข้าใจอย่างแท้จริง เรื่องบุคลากรก็เป็นอีกเรื่อง บางหน่วยงานพอมีคำว่า Big Data ผู้บริหารก็เริ่มบอกว่าต้องการ Data Scientist ทั้งๆที่ยังไม่รู้ว่าจะกำหนด Job Description ในองค์กรให้เขาอย่างไร หรือจำเป็นแค่ไหนที่เราต้องการบุคลากรด้านนี้ในองค์กร

คำถามที่มักจะเจอก็คือเราจะเริ่มต้นทำ Big Data อย่างไร เราต้องการบุคลากรอย่างไร ทักษะเปลี่ยนไปจากเดิมมากน้อยอย่างไร เราต้องการ Data Scientist ในองค์กรเพื่อทำ Big Data  จริงหรือ? คำถามเหล่านี้ไม่มีคำตอบที่ชัดเจน แต่มันก็ขึ้นอยู่กับระดับความต้องการใช้งาน Big Data ขององค์กร แต่ที่แน่ๆทักษะของบุคลากรในยุคใหม่ที่มีเทคโนโลยี Big Data จะเปลี่ยนแปลงจากสมัยเดิมที่เรื่องแต่เรื่องของ RDBMS ในมุมมองของผมงานทางด้าน Big Data น่าจะแบ่งบุคลากรด้านต่างๆได้ดังนี้

  • Chief Data Officer  ในอดีตเราอาจมีผู้บริหารสูงสุดด้านไอที แต่แนวโน้มเราอาจต้องการผู้บริหารสูงสุดด้านข้อมูล ที่มีอำนาจในการดูแลข้อมูลภายในและภายนอกองค์กร การนำข้อมูลไปใช้งาน การบริหารจัดการเทคโนโลยีสารสนเทศด้านข้อมูล การออกแบบสถาปัตยกรรม การดูแลเรื่องคุณภาพข้อมูล และอาจรวมไปถึงทรัพย์สินทางปัญญาที่อาจเกิดขึ้น จากข้อมูลหรืออัลกอริทึกจากการวิเคราะห์คาดการณ์ข้อมูล
  • Big Data Architect เทคโนโลยีด้านข้อมูลเปลี่ยนไปจากเดิมมากที่แต่ก่อนอาจพูดถึงแค่ RDBMS หรือ Data WareHouse แต่ในปัจจุบันทุกองค์กรจะต้องปรับโครงสร้างพื้นฐานด้านข้อมูลและอาจต้องนำเทคโนโลยีใหม่เข้ามาใช้งานทั้ง Hadoop, NoSQL, Storage หรือ แม้แต่  Cloud Service ซึ่งเทคโนโลยีเหล่านี้ยังมีบริการหรือเทคโนโลยีเสริมต่างๆที่หลากหลาย อาทิเช่น Data Ingestion อย่าง KafKa, Sqoop  หรือ Flume หรือเทคโนโลยีด้านประมวลผลเช่น Spark, Impala หรือเทคโนโลยีการทำ Visualisation ดังจะเห็นได้จากรูปที่ 1 ที่แสดง Big Data Landscape ที่ประกอบด้วยเทคโนโลยีต่างในปัจจุบัน ซึ่งเราจำเป็นต้องการ IT Architect ที่เข้าใจการออกแบบระบบที่รองรับเทคโนโลยีหลากหลายเหล่านี้ได้
  • Big Data Engineer/Administrator งานอีกด้านหนึ่งที่จำเป็นคือคนที่มีความสามารถในการติดตั้งระบบ Big Data ต่างๆเช่น Hadoop, RDBMS, NoSQL รวมถึงการ Monitor  และการทำ Performance Tuning  ซึ่งงานแบบนี้อาจต้องการทักษะคนที่เข้าใจระบบปฎิบัติการ มีความสามารถที่จะเป็นผู้ดูแลระบบเหมือน  System Admin  แต่บุคลากรแต่ละรายอาจไม่สามารถดูแลทุกระบบได้เพราะแต่ละระบบต้องการทักษะที่ต่างกัน
  • Big Data Developerในอดีตงานนี้อาจหมายถึงคนที่จะมาช่วยพัฒนา SQL เพื่อจะเรียกดูข้อมูลจาก DataBase แต่ปัจจุบันระบบประมวลผลขนาดใหญ่ต้องการทักษะด้าน Programming มากขึ้นและมีเทคโนโลยีที่หลากหลายมากขึ้นทั้ง MapReduce, Spark, Hive, Pig หรือ Impala แต่ละเทคโนโลยีก็ต้องการทักษะที่ต่างกัน ดังนั้นก็มีแนวโน้มที่องค์กรต้องการบุคลากรด้านนี้จำนวนมากและแต่ละคนอาจทำงานใช้เทคโนโลยีคนละด้านกัน
  • Big Data Analyst หมายถึงนักวิเคราะห์ข้อมูลที่อาจรวมไปถึงการนำข้อมูลมาแสดงผล โดยใช้ Visualisation Tool ที่หลากหลาย โดยในปัจจุบันอาจต้องดึงข้อมูลมาจาก Data Lake และใช้ Tool ใหม่ๆ บางครั้งบุคลากรด้านนี้อาจไม่ได้เก่งด้านการพัฒนาโปรแกรมนัก แต่จะต้องรู้ว่าจะวิเคราะห์ข้อมูลอะไร และมีทักษะในการผลที่ได้มาแสดงให้คนทั่วไปเข้าใจ คนกลุ่มนี้ควรมีพื้นฐานด้านสถิติและรู้ด้านธุรกิจ
  • Data Scientist  ตำแหน่งงานที่ดูน่าสนใจที่สุดในปัจจุบัน แต่ก็ใช่ว่าทุกองค์กรต้องการ เพราะบุคลากรด้านนี้จำเป็นถ้าเราต้องการวิเคราะห์ข้อมูลโดยเฉพาะในลักษณะ Predictive Analytics บุคลากรด้านนี้ต้องรู้เรื่องของ  Algorithm อาจต้องเก่งด้านคณิตศาสตร์ เข้าใจเรื่อง  Machine Learning และต้องมีความเข้าใจด้านธุรกิจที่ต้องการวิเคราะห์ โดยมากคนเก่งทางด้านนี้น่าจะจบปริญญาโทหรือเอกด้านคณิตศาตร์, Computer Science หรือ  Computer Engineering มา

matt_turck_big_data_landscape_v11

รูปที่  1 Big Data Landscape 2016

จากที่กล่าวมาทั้งหมดจะเห็นว่า ในอนาคตองค์กรยังมีความต้องการบุคลากรด้านนี้ที่หลากหลาย และยังมีความต้องการอีกจำนวนมาก ผมคิดว่าถึงเวลาที่หน่วยงานต่างๆต้องมาวางแผนการพัฒนาบุคลากรด้านนี้ร่วมกัน เท่าที่ทราบทาง สำนักงานการอุดมศึกษาก็มีการตั้งอนุกรรมการดูหลักสูตรทั่วประเทศเพื่อพัฒนาคนทางด้านนี้ และได้ให้ผมเข้าร่วม แต่ก็ยังขับเคลื่อนกันช้าอยู่ ถึงเวลาที่เราคงต้องรีบเร่งแล้วครับ

ธนชาติ นุ่มนนท์

IMC Institute

กุมภาพันธ์ 2559

Hadoop Distribution ต่างๆสำหรับการทดลองใช้งาน

 

เทคโนโลยีด้าน Big Data โดยเฉพาะ Hadoop เป็นเรื่องที่คนให้ความสนใจอย่างมาก และเริ่มมีการคาดการณ์กันว่าในอนาคตองค์กรต่างๆแทบทุกแห่งก็จะต้องมีการใช้งานระบบ Hadoop ในต่างประเทศให้ความสำคัญกับการอบรมด้านนี้มาก ซึ่งทางผมเองภายใต้สถาบันไอเอ็มซีก็ได้จัดการอบรมเทคโนโลยีให้กับผู้เข้าอบรมจำนวนมากในรอบสามปีที่ผ่านมาโดยมีจำนวนมากหนึ่งพันคน และสามารถที่จะ Download Slide การอบรมด้านนี้ของทางสถาบันได้ที่ www.slideshare.net/imcinstitute

hadoop-distributions

ประเด็นสำคัญเรื่องหนึ่งที่มักจะถูกถามจากผู้เข้าอบรมว่า เราสามารถที่จะหา Hadoop Cluster จากไหนมาทดลองเล่น จริงๆเราสามารถจะฝึกใช้ Hadoop ได้โดยติดตั้งระบบต่างๆดังนี้

1) การใช้ Hadoop Sandbox

Distribution หลายรายเช่น Cloudera, Hortonworks หรือ MapR จะมี Hadoop Sandbox ให้เราทำลองใช้งานได้ แต่ระบบนี้จะเป็นเครื่องเพียงเครื่องเดียวที่มี Image ให้เรารันผ่าน Virtual Box, VMWare หรือ KVM โดยเราอาจต้อง Download Image ขนาดใหญ่ประมาณ 4-6 GByte ลงมาเก็บไว้ก่อน ทั้งนี้เราสามารถจะ Download Image ของ Hadoop Distribution ต่างๆได้ที่นี้

นอกจากนี้ล่าสุด Cloudera  ยังสามารถรันผ่าน Docker โดยมีขั้นตอนการติดตั้ง Docker Image ดังนี้ >> การติดตั้ง Cloudera Quickstart บน  Docker

2) การติดตั้ง Hadoop Cluster เอง

เรายังสามารถที่จะติดตั้ง Apache Hadoop Cluster  ได้เอง  ซึ่งวิธีนี้จะต่างกับการใช้ Sandbox เพราะสามารถใช้งานได้จรีง และผมเองได้เคยเขียนแบบฝึกหัดให้ทดลองติดตั้งในหลายๆระบบดังนี้

นอกจากนี้ผมยังมีแบบฝึกหัดให้ติดตั้ง  Cloudera Cluster บน Amazon EC2 ซึ่งจะมีขั้นตอนการติดตั้งดังนี้ >> แบบฝึกหัดติดตั้ง Cloudera Cluster

3) การใช้ Hadoop as a Service

กรณีนี้เป็นการใช้ Hadoop Service ที่อยู่บน Cloud  แบบนี้เหมาะที่จะใช้ในการประมวลผล แต่ไม่เหมาะจะใช้เก็ยข้อมูลบน  HDFS เนื่องจากระบบ Hadoop as a Service จะไม่สามารถ Stop ได้ และมีค่าใช้จ่ายต่อชั่วโมงค่อนข้างสูง จึงเหมาะกับใช้ในการประมวลผลข้อมูลขนาดใหญ่ที่อยู่ใน Cloud Storage หรือข้อมูลบนอินเตอร์เน็ตแบบชั่วควาร

ผมเองมีแบบฝึกหัดทีให้ทดลองใช้ Hadoop แบบนี้สองระบบตือ

ผมหวังว่าบทความสั้นๆที่เขียนมานี้ คงเป็นจุดเริ่มต้นให้ทุกท่านได้เรี่มใช้  Hadoop  ได้ วันนี้ไม่ใช่แค่มาศึกษาว่าอะไรคือ Hadoop แต่มันถึงเวลาที่ต้องลงมือปฎิบัตืแล้ว มิฉะนั้นเราคงก้าวตามเรื่อง Big Data ไม่ทัน

ธนชาติ นุ่มนนท์

IMC Institute

กุมภาพันธ์ 2559

 

 

 

 

ความเห็นของผมต่อร่างแผนพัฒนาดิจิทัลเศรษฐกิจและสังคม

12662638_601498169997527_5577768699898697495_n

ผมได้มีโอกาสอ่านร่างแผนพัฒนาดิจิทัลเศรษฐกิจและสังคมของกระทรวงเทคโนโลยีสารสนเทศและการสื่อสารที่ผ่านคณะกรรมการ Digital Economy ไปเมื่อวันจันทร์ที่ 8 กุมภาพันธ์ 2559 ที่ผ่านมาและทีมงานก็ได้จัให้มีประชาพิจารณ์สำหรับภาคเอกชนเมื่อวันจันทร์ที่ผ่านมา ทั้งนี้เอกสารรายละเอียดของแผนสามารถดาวน์โหลดได้ที่ http://www.digitalthailand.in.th/

ทั้งนี้ในตัวร่างได้กำหนดยุทธศาสตร์ไว้ 6 ด้านคือ

  • ยุทธศาสตร์ที่ 1: พัฒนาโครงสร้างพื้นฐานดิจิทัลประสิทธิภาพสูงให้ครอบคลุมทั่วประเทศ
  • ยุทธศาสตร์ที่ 2: ขับเคลื่อนเศรษฐกิจด้วยเทคโนโลยีดิจิทัล
  • ยุทธศาสตร์ที่ 3: สร้างสังคมคุณภาพด้วยเทคโนโลยีดิจิทัล
  • ยุทธศาสตร์ที่ 4: ปรับเปลี่ยนภาครัฐสู่การเป็นรัฐบาลดิจิทัล
  • ยุทธศาสตร์ที่ 5: พัฒนากาลังคนให้พร้อมเข้าสู่ยุคเศรษฐกิจและสังคมดิจิทัล
  • ยุทธศาสตร์ที่ 6: สร้างความเชื่อมั่นในการใช้เทคโนโลยีดิจิทัล
และได้กำหนดภูมิทัศน์ดิจิทัลของไทยในระยะ20 ปีที่จะขับเคลื่อนจาก Digital Foundation สู่ Global Digital Leadership  ดังรูปที่ 1
Screenshot 2016-02-16 09.19.38
รูปที่  1 ภูมิทัศน์ดิจิทัลของไทยในระยะ20 ปี

แผนพัฒนานี้เป็นแผนที่เขียนได้ดีเช่นเดียวกับแผน IT 2010 และ IT 2020 ของกระทรวงไอซีทีเคยได้รับการอนุมัติ ซึ่งถ้าเรามองต่อจะเห็นว่าทุกครั้งที่เราจัดทำแผน เราจะได้แผนงานที่ดีและเป็นที่น่าชื่นชมแต่ปัญหาของประเทศเราคือแผนขาดการนำไปปฎิบัติจริงๆเพราะไม่มีแผนปฎิบัติ.ไม่มีการจัดสรรงบประมาณตามแผน และหน่วยงานอื่นๆมักไม่ให้ความร่วมมือ ที่ซ้ำร้ายไปกว่านั้นคือมักจะเปลี่ยนหรือเขียนแผนใหม่เมื่อเปลี่ยนรัฐบาล แผนเลยขาดความต่อเนื่องและหน่วยงานน้อยอย่างมากที่ได้มีการปฎิบัติตามแผน เช่นเดียวกันแผนฉบับนี้ก็ไม่มีใครสามารถยืนยันได้หรอกครับว่ารัฐบาลใหม่เข้ามาจะทำตามแผนนี้หรือไม่โดยจะไม่มีแผนใหม่ ดังจะเห็นได้ว่าล่าสุดแม้แต่สื่อบางฉบับก็มีการเปรียบเทียบแผนชุดนี้กับแผนของรัฐมนตรีท่านที่พ้นจากตำแหน่งไปทั้งที่มันก็คือเรื่องเดียวกัน แต่ในความคิดของสื่อหรือประชาชนจำนวนหนึ่งมองว่ามันเป็นแผนของรัฐมนตรีของรัฐบาลชุดนี้แต่ไม่ใช่ยุทธศาสตตร์ชาติก็เพราะมันมีบทเรียนให้ศึกษาว่าแผนส่วนใหญ่จะเปลี่ยนไปเมื่อเปลี่ยนรัฐบาล สรุปหน่วยงานของรัฐก็จะวนอยู่กับการเขียนแผนที่ไม่มีการปฎิบัติ จนบางครั้งเกิดคำถามว่าแล้วทำไมเราต้องเขียนแผนอะไรมากมาย เอาสั้นๆพอสังเขปพอแล้วมี Action ลงมือปฎิบัติจริงจังจะดีกว่า

แต่ถ้าย้อนกลับมาดูแผนนี้ ก็คงมีประเด็นที่น่าสนใจคือ แผนครอบคลุมคำว่าดิจิทัลกว้างไปแทบทุกเรื่อง โดยขาดการ Focus ว่าเราจะเน้นด้านดิจิทัลใดอย่างไร จะเป็นผู้บริโภคที่นำเทคโนโลยีมาใช้อย่างชาญฉลาดหรือจะมุ่งเน้นเป็นผู้ผลิตของโลกที่ต้องให้คำสัญกับการวิจัยและพัฒนา หรือจะมุ่งเน้นเทคโนโลยีในด้านใดที่จะเป็นจุดเด่นของบ้านเราเช่น จะทำ Digital Content, E-Commerce, Big Data, Cloud Computing หรือ IoT แต่ดูเหมือนว่าเราจะแตะไปทุกเรื่องแบบขาดแผนการที่ดี

แผนขาดการพูดถึง ค่านิยมหรือเอกลักษณ์ที่เป็น Core Value ของบ้านเรา การที่ไม่มีค่านิยมมันก็ไม่สามารถจะกำหนดทิศทางด้านดิจทัลได้ เช่นอะไรคือ Core Value  ของประชาชนด้านดิจิทัล เราจะมองว่าประชากรจะเป็นผู้บริโภคที่มีคุณค่าที่จะเข้าสู่สังคมแห่งการแบ่งปันหรือเราจะมองว่าเป็นผู้ผลิต หรือ Core Value ของภาคราชการที่จะปรับเปลี่ยนสู่การนำดิจิทัลมาบริการประชาชน ลดระบบเจ้าขุนมูลนายแบบเดิม ประชาชนสามารถเข้าหาข้าราชการชั้นผู้ใหญ่ผ่านการสื่อสารดิจิทัลหรือไม่ มันเหมือนกับที่รัฐบาลพยายามกำหนดค่านิยม 12  ประการ แต่นั้นคือค่านิยมของประชาชนไทย แต่อะไรคือค่านิยมหรือเอกลักษณ์ด้านดิจทัลของบ้านเรา

ประเด็นถัดมาแผนนี้ยังขาดความชัดเจนเรื่องการพัฒนาบุคลากรว่าจะสอดคล้องกับแผนปฏิรูปการศึกษาของประเทศอย่างไร เราไม่ได้ประเมินว่าบุคลากรของบ้านเราเข้มแข็งแค่ไหนเรามีช่องว่างเทียบกับต่างประเทศอย่างไร เราควรจะสร้างบุคลากรที่มีความเชี่ยวชาญทางด้านไหน และมีความเป็นไปได้มากน้อยแค่ไหนที่เราจะก้าวสู่การเป็น Global Digital Leadership ในอีก20ปีข้างหน้าในเมื่อเราไม่มีการพูดถึงการศึกษาด้านดิจิทัลในระดับประถมศึกษาหรือมัธยมศึกษาขนาดที่ประเทศที่เป็นผุ้นำด้านดิจิทัลโลกอย่างสหรัฐอเมริกาประกาศนโยบาย Computer Science forAll สำหรับนักเรียนทั่วประเทศ ทุ่มเงินนับแสนล้านเหรียญ ถึงแม้ว่าในแผนจะระบุไว้ยุทธศาสตร์ที่ 4 ข้อ 2.2 ว่าจะ2.2 เพิ่มปริมาณและคุณภาพของบุคลากรที่มีความเชี่ยวชาญทางด้านดิจิทัล แต่ดูแล้วยากมากถ้าเราไม่ไปโยงกับการศึกษาขั้นพื้นฐานที่เราล้มเหลวด้านวิทยาศาตร์และเทคโนโลยี เราต้องสร้างตั้งแต่เด็กเล็กใช้เวลา  15-20  ปี แต่ในแผนกลับมองว่าใช้เวลาเพียง  1 ปี 6 เดือนจะสามารถทำให้บุคลากรของเราด้านนี้เป็นที่ยอมรับทั้งในและต่างประเทศซึ่งแทบจะเป็นไปไม่ได้เลย

อีกเรื่องที่ไม่ได้กล่าวมากในแผนเลยคือเรื่องวิจัยและพัฒนาดิจิทัล (R&D)  ผมยังมองไม่เห็นว่าประเทศจะเป็นผู้นำด้านนี้ได้อย่างไรถ้าเราขาดแผน  R&D ที่จะต้องเชื่อมโยงกับกระทรวงวิทยาศาสตร์ กระทรวงศึกษาธิการและหน่วยงานอื่นๆ แต่ในแผนมีการกล่าวสั้นๆเรื่องนี้เพียงเล็กน้อยเช่นในยุทธศาสตร์ที่ 2 ซึ่งกล่าวถึงการจัดให้มีทุนสนับสนุนงานนวัตกรรมบริการขนาดใหญ่ที่เป็นบริการพื้นฐาน ถ้าเราจะสร้างเศรษฐกิจดิจิทัลอย่างแท้จริง เรื่อง R&D ควรจะแยกมาเป็นยุทธศาสตร์เฉพาะหนึ่งด้านและมีการทำอย่างจริงจัง และต้องเป็นงบที่สูงมาก

สุดท้ายพูดถึงกลไกการขับเคลื่อนแผนนี้ ผมยังมองไม่ออกว่าการจะเปลี่ยนกระทรวงไอซีทีให้เป็นกระทรวงดิจิทัลเพื่อพัฒนาเศรษฐกิจและสังคม และมีการจัดตั้งหน่วยงานใหม่ 2 หน่วยงานคือ สำนักงานคณะกรรมการดิจิทัลเพื่อเศรษฐกิจและสังคมแห่งชาติ และสำนักงานส่งเสริมเศรษฐกิจดิจิทัล จะมาช่วยกำหนดนโยบายต่างๆเหล่านี้สำเร็จได้อย่างไร เพราะที่ผ่านมากระทรวงไอซีทีก็ขาดบุคลากรที่เข้มแข็งเข้าใจและทันในโลกเทคโนโลยีดิจิทัล กระทรวงแทบไม่มีอำนาจสั่งงานหรือขอความร่วมมือจากหน่วยงานอื่นๆนัก ส่วนหนึ่งก็เพราะกระทรวงอาจขาดบทบาทของผู้นำทางความคิดที่เป็นที่ยอมรับให้หน่วยงานอื่นๆเชื่อถือและทำตาม แม้จะมีความพยายามจะตั้งหน่วยงานใหม่อีกสองหน่วย ถ้ายังเป็นรูปแบบราชการต้องใช้คนเก่าๆในระบบราชการมาทำงานก็ไม่ต่างจากเดิม ที่สำคัญที่สุดภาคราชการนั้นละครับที่ยังไม่เป็นดิจิทัล ถ้าเราจะทำ Digital Economy จริงๆให้สำเร็จ สอดคล้องกับแผนปฎิรูปประเทศ 20 ปีของรัฐบาลพลเอกประยุทธ์ มันถึงเวลาที่ต้องปฎิวัติระบบราชการครับ ต้องปรับเปลี่ยนกรมกองต่างๆ อาจต้องมีการตั้งกระทรวงต่างๆใหม่เหมือนกับสมัยรัชกาลที่ 5 ละครับ เผลอๆเราอาจต้องมีกระทรวงแห่งอนาคตเช่นเดียวกับบางประเทศ และกระทรวงก็ต้องปรับเปลี่ยนให้ง่ายตามยุคตามสมัย นั้นละครับถึงจะเปลี่ยนประเทศเราสู่  Digital Economy ได้

ธนชาติ นุ่มนนท์
นายกสมาคมเทคโนโลยีสารสนเทศไทย
ผู้อำนวยการ IMC Institute

(ความคิดเห็นนี้เป็นความเห็นส่วนตัวนะครับ)

การประมวลผล Big Data ควรใช้เทคโนโลยีไหนดี?

 

องค์ประกอบที่สำคัญที่สุดอีกอันหนึ่งการทำ Big Data คือการประมวลผลข้อมูลจากแหล่งข้อมูลขนาดใหญ่ต่างๆ ทั้งนี้การประมวลผลข้อมูลที่เก็บอยู่สามารถแบ่งออกได้ 4 รูปแบบคือ

  • Interactive analysis
  • Batch analysis
  • Real time analysis
  • Machine Learning

โดยควรจะมีเทคโนโลยีสองกลุ่มคือ การประมวลผลโดยใช้เทคโนโลยี Hadoop จากข้อมูลใน HDFS และการประมวลผลโดยใช้เทคโนโลยี Spark โดยอาจมีข้อมูลจากแหล่งต่างๆ

การประมวลผลโดยใช้ Hadoop

โดยปกติ Hadoop จะใช้เทคโนโลยีอย่าง MapReduce ในการประมวลผลข้อมูลใน HDFS แต่ทั้งนี้เนื่องจาก MapReduce เป็นเทคโนโลยีที่ทำงานแบบ Batch และต้องพัฒนาโปรแกรมด้วยภาษาต่างๆ อาทิเช่น  Java ในการประมวลผล จึงทำให้ MapReduce ได้รับความนิยมน้อยลงและมีแนวโน้มว่าจะถูกแทนที่ด้วยเทคโนโลยี Spark  วันนี้เราอาจไม่ต้องเน้นการประมวลผลผ่านบริการ MapReduce มากนักแต่ควรให้บริการเทคโนโลยีประมวลสำหรับ Hadoop ที่เป็นภาษาคล้าย SQL  โดยแนะนำให้บริการเทคโนโลยีต่างๆ คือ Hive  เป็นเทคโนโลยีที่ใช้ภาษา Hive QL ลักษณะ SQL โดย Hive จะทำหน้าที่ในการแปล SQL like ให้มาเป็น MapReduce แล้วก็ทำการรันแบบ Batch

  • Impala เป็นเครื่องมือที่คล้ายกับ Hive แต่เขียนด้วยภาษา C++ และติดต่อกับข้อมูล HDFS ตรงโดยไม่ต้องผ่าน MapReduce ซึ่งจะทำงานแบบ Interactive
  • Pig เป็นเครื่องมือคล้ายๆ กับ Hive ที่ช่วยให้ประมวลผลข้อมูลโดยไม่ต้องเขียนโปรแกรม Map/Reduce ซึ่ง Pig จะใช้โปรแกรมภาษา script ง่ายๆที่เรียกว่า Pig Latin แทน ทั้งนี้จะทำงานแบบ Batch

การประมวลผลโดยใช้ Spark

Spark  เป็นเทคโนโลยีในการประมวลข้อมูลขนาดใหญ่ โดยสามารถจะประมวลผลข้อมูลทั้งที่อยู่ใน HDFS หรือแหล่งอื่นๆ อาทิเช่น Cloud Storage, NoSQL, RDBMS ดังแสดงในรูปที่ 1 ทั้งนี้ Spark สามารถทำงานแบบ  Standalone หรือจะทำงานบน Hadoop Cluster  ผ่าน YARN ก็ได้ โดยจะทำงานแบบ Interactive โดยมีการระบุว่า Spark สามารถประมวลผลบน  Hadoop ได้เร็วกว่า MapReduce อย่างน้อย 10 เท่า ซึ่ง Spark มีบริการประมวลผลแบบต่างๆ ดังนี้

Screenshot 2016-02-11 08.30.57

รูปที่ 1 ระบบประมวลผลของ Apache Spark

  • Spark core ก็คือระบบประมวลผลโดยผ่าน API ซึ่งให้ผู้ใช้บริการสามารถเลือกใช้ภาษา Java, Scala, Python หรือ R
  • Spark streaming สำหรับการประมวลผลแบบ Realtime  Streaming
  • Spark SQL สำหรับการประมวลผลที่ใช้ภาษาคล้ายกับ SQL
  • MLlib  สำหรับการประมวลที่เป็นแบบ Machine Learning

ทั้งนี้เราสามารถที่จะสรุปเปรียบเทียบเทคโนโลยีการประมวลผลข้อมูลต่างๆ ได้ดังนี้

Screenshot 2016-02-11 08.31.06

ธนชาติ นุ่มนนท์

IMC Institute

กุมภาพันธ์ 2559