Hortonworks เทียบกับ Hadoop Distribution อื่นๆ

ช่วงสองสัปดาห์ที่ผ่านมา ผมให้ทีมนักศึกษาฝึกงานของ IMC Institute  ในโครงการ Big Data School  ได้ทดลองติดตั้งและเปรียบเทียบ Hadoop Distribution ต่างๆ ซึ่งผมได้เคยเขียนเรื่อง การติดตั้ง Hadoop Distributions  พร้อมทั้งวิธีการติดตั้งไว้แล้ว ในบทความ “Big Data School กับการติดตั้ง Hadoop Distributions” ซึ่งในการเปรียบเทียบDistribution ต่างๆ ผมให้นักศึกษาทดลองติดตั้งสองแบบคือ

  • การติดตั้ง  Hadoop Cluster 4-5  เครื่องบน Amazon EC2 หรือ Microsoft Azure สำหรับที่จะใช้เป็น Production
  • การใช้ Hadoop Sandbox บนเครื่อง Server หรือเครื่อง PC หนึ่งเครื่อง สำหรับที่จะใช้เป็นเครื่องทดลองหรือทำ Development

ซึ่งนักศึกษาก็ได้แบ่งกลุ่มกันทำ  Hadoop Distribution  4 ชุดคือ

Screenshot 2016-06-28 12.20.25

และผมได้ให้พวกเขาสรุปเปรียบเทียบในประเด็นต่างๆเช่น ราคา, ความยากง่ายในการใช้งาน, ความยากง่ายในการติดตั้ง, Opensource Compatibity, คู่มือเอกสารต่างๆและชุมชน, การสนับสนุนจากผู้ผลิต  ซึ่งพอสรุปประเด็นต่างๆได้ดังนี้

  • ราคา: ในแง่ราคา Apache Hadoop เป็นฟรีซอฟต์แวร์แต่ก็ไม่มี support ใดๆ ซึ่งถ้าเปรียบเทียบกรณีนี้ Hortonworks จะดีสุดเพราะฟรีเช่นกันยกเว้นต้องการซื้อ  support ขณะที่ Cloudera จะหรีเฉพาะ  Express Version และ MapR จะฟรีเฉพาะเวอร์ชั่น M3  ซึ่งทั้งสองเวอร์ชั่นไม่ใช่ Full Feature ที่ทั้งสองรายมีให้
  • ความง่ายในการติดตั้ง Cluster: เมื่อพิจารณาจากประเด็นนี้  Cloudera จะติดตั้งง่ายสุดโดยผ่าน Cloudera Manager แต่จริงๆแล้วการติดตั้ง Hortonworks ก็ไม่ยากเกินไปถ้าติดตั้งผ่าน Public Cloud หรือ  Private Cloud ที่เป็น Openstack  โดยใช้ Cloudbreak ส่วน Apache Hadoop ติดตั้งค่อนข้างยากแต่อาจใช้ Ambari ได้
  • ความง่ายในการใช้งาน: Cloudera และ MapR  จะมีส่วนติดต่อผู้ใช้ที่เป็น Hue ที่ค่อนข้างง่ายต่อการใช้งาน ส่วนของ Hortonworks ใช้ Ambari ที่มี Feature เพียงบางส่วน ส่วนของ Apache Hadoop จะต้องติดตั้ง Hue เองซึ่งค่อนข้างยาก
  • Opensource Compatibility: กรณีนี้ Hortonworks จะดีกว่ารายอื่นมากเพราะจะสอดคล้องกับ Apache Hadoop ที่เป็น Opensource ขณะที่ Cloudera จะเป็น Vendor Lockin หลายตัว อาทิเช่น Cloudera Manager หรือ Impala เช่นเดียวกับ MapR ที่ Lockin ตั้งแต่ MapR-FS และ MapR Streaming
  • Sandbox: ถ้าต้องการหาตัวทดลองเล่น Cloudera มีจุดเด่นที่มี Docker Image ให้เลยสามารถเล่นกับเครื่องใดก็ได้ ขณะที่ Hortonworks จะเน้นให้เล่นกับ VMware/VirtualBox หรือจะรันผ่าน Microsoft Azure เท่านั้น ส่วน distributation อื่นๆ (MapR, Apache Hadoop) ก็ไม่มี Official Docker Image  เช่นกัน
  • คู่มือเอกสารต่างๆและ Community:  ในแง่นี้ทั้งสามรายที่เป็น  Commercial Distribution ต่างก็มีเอกสารพอๆกัน แต่ถ้าพูดถึง Community เราอาจเห็นจำนวนคนที่จะแชร์ข้อมูล Cloudera มากกว่า Hortonworks แต่ทั้งนี้เราสามารถใช้ Community กลุ่มเดียวกับ Pure Apache Hadoop เพราะ Hortonworks จะมีความ Opensource Compatibity ค่อนข้างสูงแต่สองรายใหญ่ต่างก็มีงานประจำปีหลายที่คือ Hadoop Summit ของ Hortonworks และ Hadoop World ของ  Cloudera ส่วน MapR จำนวน  Community น้อยสุด
  •  การสนับสนุนจากผู้ผลิต: ถ้ามองในแง่ประเทศไทย การสนับสนุนจากผู้ผลิตของ Cloudera ยังนำรายอื่นๆอยู่มาก ทำให้หน่วยงานในประเทศไทยรายแห่งสนใจใช้ Cloudera

ทั้งนี้เมื่อพิจารณาโดยรวมแล้ว เราสรุปกันว่า ถ้าจะทำ Product ที่มีราคาถูกสุดและสอดคล้องกับ Pure Apache Hadoop มากที่สุดควรเลือกใช้ Hortonworks ทั้งนี้เพราะ  Commercial Distribution จะมีค่าใช้จ่ายในแง่ License หรือ Subscribtion แต่ถ้ามีงบประมาณค่อนข้างเยอะก็อาจเลือกใช้ได้ แต่ไม่ควรใช้ Free Version ของสองรายดังกล่าว (Cloudera และ  MapR) ทั้งนี้เนื่องจากไม่ใช่ Full Features และบางอย่างขาดความเสถียร

แต่ถ้าต้องการทดลองหรือใช้เพื่อทำ Development โดยผ่าน Hadoop Sandbox ก็จะแนะนำให้ใช้  Cloudera Quickstart ซึ่งผมเองก็ใช้ตัวนี้ในการอบรม ดังตัวอย่างเอกสารอบรมของผมดังนี้ >> Big data processing using Cloudera Quickstart

สุดท้ายผมมี  Slide ทีนักฝึกงานของ IMC Institute ได้ทำขึ้นเพื่อเปรียบเทียบ Hadoop Distribution ต่างๆดังนี้

 

ธนชาติ นุ่มมนท์

IMC Institute

มิถุนายน 2559

Slide สำหรับการเรียนรู้ Big Data Hadoop ของ IMC Institute

 

IMC Institute จัดอบรม Big Data Hadoop มาหลายรุ่นและมีคนผ่านอบรมมาจำนวนมาก และเคยทำเอกสารประกอบการบรรยายหลายชุด วันนี้ผมเลยรวบรวม Slide  ต่างๆมาเพื่อให้ทุกท่านได้เรียนรู้ Apache Hadoop + Spark ที่มี Service ต่างๆมากมาย โดยได้เป็นแบบฝึกหัดที่ผู้อ่านสารมารถนำไปฝึกและทดลองใช้งานได้จริง ทั้งนี้ Slide  ต่างๆเหล่านี้จะอ้างอิงกับ Cloudera Quickstart ที่ใช้ Docker Image  ดังนั้นผู้ที่สนใจจะเรียนรู้จาก Slide ชุดนี้จะต้องมีเครื่องคอมพิวเตอร์หรือ Server ที่มี Docker Engine  อยู่ โดยสามารถไปดูขั้นตอนการติดตั้งได้ที่ >> https://docs.docker.com/engine/installation/

Screenshot 2016-06-23 16.23.06

รูปที่ 1  Hadoop Ecosystem

สำหรับ Service ต่างๆที่เคยทำเอกสารการสอนมาก็เป็นไปดังรูปที่ 1  โดยมีเอกสารดังนี้

Service  ด้านเก็บข้อมูล

Service ด้านการประมวลผล

Service ด้านการนำข้อมูลเข้า

Apache Spark

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

วิกฤติบุคลากรไอซีทีไทย สุดท้าย Digital Economy คงไปไม่ถึงไหน

 

ผมเคยเขียนลงบล็อกบ่อยๆเรื่องปัญหาของบุคลากรด้านไอทีไทยว่าเราขาดกำลังคนที่มีคุณภาพ และมองดูแล้วว่าเป็นอุปสรรคต่อการพัฒนาประเทศสู่เศรษฐกิจดิจิทัล ถึงแม้ว่าภายใต้แผนพัฒนาดิจิทัลเพื่อเศรษฐกิจและสังคมที่ทางคณะรัฐมนตรีจะได้อนุมัติไปเมื่อวันที่ 5 เมษายน 2559 จะมียุทธศาสตร์ที่ 5 ว่าด้วยการ พัฒนากำลังคนให้พร้อมเข้าสู่ยุคเศรษฐกิจและสังคมดิจิทัล  แต่ก็ยังไม่เห็นรูปธรรมชัดเจนว่าจะมีแนวทางในกำลังดำเนินการอย่างไรใน แผน 20 ปี

ปัญหาด้านบุคลากรไอทีที่เป็นวิกฤติของอุตสาหกรรมอย่างยิ่งในเวลานี้พอสรุปได้ดังนี้

  • บริษัทด้านไอทีต่างๆไม่สามารถหาบุคลากรที่มีความสามารถเข้าทำงานได้
  • จำนวนบุคลากรไอทีที่มีคุณภาพมีจำกัด หน่วยงานต่างๆต้องแย่งตัวกัน ทำให้เงินเดือนของบุคลากรบางกลุ่มอยู่ค่อนข้างสูง
  • เด็กรุ่นใหม่ที่สามารถทำงานด้านนี้ได้มีจำนวนจำกัด มักจะมีทัศนคติที่เปลี่ยนไป เปลี่ยนงานบ่อยและขาดความอดทน
  • ค่านิยมของคนรุ่นใหม่นิยมที่จะประกอบอาชีพอิสระ และบางส่วนฝันที่จะเป็น Startup
  • บริษัทด้านไอทีขนาดใหญ่มีจำนวนน้อยมาก เพราะเป็นเรื่องยากที่จะหาบุคลากรจำนวนมากมาทำงานในองค์กรใดองค์กรหนึ่ง ดังนั้นความเป็นไปได้ในการขยายหรือสร้างบริษัทขนาดใหญ่ที่มีพนักงานด้านไอทีจำนวนเป็นพันคนในประเทศ ย่อมเป็นไปได้ยากมาก จนแทบเป็นไปไม่ได้
  • นักศึกษารุ่นใหม่ไม่นิยมเรียนด้าน Computer Science หรือ Computer Engineer เพราะเป็นสาขาที่ยาก
  • บัณฑิตด้านไอทีจำนวนมากไม่สามารถหางานตรงกับสาขาที่เรียนมาได้ เนื่องจากจบมาไม่ตรงกับความต้องการ
  • มหาวิทยาลัยจำนวนมากเปิดสอนสาขาไอที แต่ขาดคุณภาพเน้นที่ปริมาณ

เพื่อให้เห็นภาพว่า เรามีการผลิตบัณฑิตมากน้อยเพียงใด ผมขอเริ่มต้นด้วยการนำข้อมูลของคณะกรรมการอุดมศึกษา (สกอ.)  ที่แสดงจำนวนบัณฑิตที่สำเร็จการศึกษาในแต่ละสาขาดังรูปที่ 1 ซึ่งอาจแบ่งตามประเภทของกลุ่มสถาบันได้ดังรูปที่ 2 นอกจากนี้ก็ยังมีข้อมูลของจำนวนนักศึกษาในสาขาต่างๆที่รับเข้ามาใหม่ตั้งแต่ปีการศึกษา 2553-2557 ดังรูปที่  3

Screenshot 2016-06-17 17.39.28

รูปที่ 1 ข้อมูลการผลิตบัณฑิตระดับปริญญาตรีสาขา ICT ปีการศึกษา  2553-2556 [ข้อมูล สกอ.]

Screenshot 2016-06-17 17.39.02

รูปที่ 2ข้อมูลการผลิตบัณฑิตระดับปริญญาตรีสาขา ICT แยกตามกลุ่มสถาบันการศึกษา[ข้อมูล สกอ.]

Screenshot 2016-06-17 17.42.18

รูปที่ 3 ข้อมูลการรับนักศึกษาระดับปริญญาตรีสาขา ICT ปีการศึกษา  2553-2557 [ข้อมูล สกอ.]

จากข้อมูลที่นำเสนอจะเห็นว่าบัณฑิตด้านเทคโนโลยีสารสนเทศของประเทศส่วนใหญ่จะมาจากสาขา คอมพิวเตอร์ธุรกิจ และเทคโนโลยีสารสนเทศ ขณะที่บัณฑิตด้านวิศวกรรมคอมพิวเตอร์และวิทยาการคอมพิวเตอร์ที่สามารถจะพัฒนาซอฟต์แวร์และเข้าสู่อุตสาหกรรมไอทีได้มีจำนวนน้อยกว่ามาก และที่น่าสนใจคือกลุ่มที่ผลิตบัณฑิตสาขาคอมพิวเตอร์ธุรกิจจะมาจากมหาวิทยาลัยราชภัฎและมหาวิทยาลัยเอกชน ส่วนบัณฑิตสาขาเทคโนโลยีสารสนเทศที่มีอยู่จำนวนมากหากพิจารณาดูจากเนื้อหาหลักสูตรแล้วคงมีเพียงมหาวิทยาลัยชั้นนำเพียงไม่กี่แห่งที่มีหลักสูตรที่สามารถพัฒนาซอฟต์แวร์หรือทำงานในอุตสาหกรรมได้

สิ่งที่น่าเป็นห่วงอีกเรื่องหนึ่ง ถ้าเราสังเกตุจากข้อมูลในรูปที่  3 คิอจำนวนนักศึกษาเข้าใหม่ในสาขาไอซีทีมีน้อยลงเรื่อยๆ ส่วนหนึ่งก็เพราะการเกิดของประชากรน้อยลง แต่ขณะเดียวกันค่านิยมของเด็กรุ่นใหม่ก็สนใจงานทางนี้น้อยลงเพราะรู้ว่าเป็นเรื่องยากและได้รายได้ไม่สูงมากในระยะแรก ข้อสำคัญเด็กไทยจะอ่อนด้านคณิตศาสตร์ วิทยาศาสตร์ ซึ่งเป็นหัวใจหลักของการเรียนด้านไอซีที

นอกจากนี้หากพิจารณาดูข้อมูลด้านบุคลากรจาก TDRI  จะทราบว่าประเทศไทยมีพนักงานด้านพัฒนาซอฟต์แวร์และบริการซอฟต์แวร์ไม่เกิน  40,000  คน ดังรูปที่ 4 ซึ่งถ้าดูจำนวนบัณฑิตที่จบมาในสาขานี้จะไม่แปลกใจที่พบว่า จำนวนมากไม่เข้าสู่อุตสาหกรรม ทั้งนี้ก็เพราะว่าแต่ละปีมีเพียงแค่ไม่กี่พันคนที่จะทำงานได้

Screenshot 2016-06-17 18.38.00

รูปที่ 4 จำนวนบุคลากรในอุตสาหกรรมซอฟต์แวร์[ข้อมูล TDRI]

และหากเจาะลึกเข้าไปในกลุ่มที่สำเร็จการศึกษาเราก็จะพบว่ามีเพียงจำนวนน้อยมากที่มีความสามารถที่จะเข้าสู่ตลาดแรงงาน ซึ่งผมเคยเขียนไว้ว่าเราสามารถ

  • กลุ่ม  Top คือสถาบันที่มีสาขาวิชาที่มีนักศึกษาพร้อมที่จะเป็นวิศวกรซอฟต์แวร์กลุ่มนี้มีไม่เกิน 10 แห่ง กลุ่มนี้นักศึกษาส่วนมากเก่งจำนวนรวมกันอาจประมาณไม่เกิน  1.000 คน แต่พบว่าจำนวนมากเมื่อจบออกมาก็ไม่ได้ทำงานด้านไอที และหลายๆคนไปศึกษาต่อสาขาอื่น
  • กลุ่มระดับกลางอาจมีประมาณ 20  แห่ง ซึ่งจะได้นักศึกษาที่มีคุณภาพพอใช้ได้ในห้องประมาณ  20-30%ซึ่งจำนวนคนเหล่านี้มีประมาณรวมกันซัก  1,000 คน แต่ที่เหลือก็ไม่เก่งพอและขาดพื้นฐานที่ดี
  • กลุ่มสุดท้ายซึ่งเป็นสถาบันส่วนใหญ่ที่เปิดสอน จะมีนักศึกษาที่มีคุณภาพน้อยมาก บางทีทั้งห้องหานักศึกษาที่พอจะทำงานและเรียนทางด้านไอทีไม่เกิน 3-5  คนในชั้นเรียน

จากจำนวนที่กล่าวมาจะเห็นว่ารวมๆต่อปีเรามีบัณฑิตที่พร้อมจะเข้าสู่วิชาชีพประมาณ 2  พันคนแต่เราเล่นผลิตบัณฑิตด้านนี้ออกมาเป็นหมื่น ดังนั้นจึงไม่แปลกใจหรอกครับว่าทำไม บัณฑิตจำนวนมากไม่มีคุณภาพ ไม่เก่ง และบางทีเราก็ได้ยินบ่อยๆว่าจบไอทีเขียนโปรแกรมไม่เป็น บางครั้งก็เป็นแค่  Superuser ทั้งนี้บัณฑิตในในกลุ่ม Top บางคนอาจไม่ได้พร้อมทำงานทันทีแต่พอเขามีพื้นฐานที่ดี แต่พวกเขาก็พร้อมจะปรับตัวเรียนรู้สิ่งใหม่ แต่สิ่งที่น่าเป็นห่วงของเด็กเก่งคือแนวคิดที่เปลี่ยนไป การเปลี่ยนงานง่าย ความซื่อสัตย์และจริยธรรมที่น้อยลง ส่วนหนึ่งก็เพราะสังคมที่เปลี่ยนไปและเขาเห็นแบบอย่างที่ไม่ดี ที่สำคัญกระแส Startup คงจะทำให้เขาอยากออกไปทำอะไรเอง สุดท้ายคนเหล่านี้ส่วนใหญ่ก็อาจล้มเหลวและกลับเข้าสู่อุตสาหกรรมไม่ได้เพราะไม่ได้เข้าใจการทำงานจริงมาก่อนที่จะออกไปทำงานอิสระและเข้าสู่อุตสาหกรรมช้าไป

จากที่กล่าวมาทังหมดนี้ วิกฤติของอุตสาหกรรมอยู่ที่เราไม่อยู่กับความจริง ไม่อยู่กับข้อมูลและตัวเลข เราไปสร้างภาพและการตลาดว่าเราจะเป็นผู้นำในอุตสาหกรรมนี้ได้ เราคิดว่าเรามีบุคลากรที่เก่ง ซึ่งจริงๆมีน้อยมาก เราพยายามจะบอกว่าเด็กเราจบใหม่เก่งไปเป็น  Startup  ได้ ทั้งๆที่มันจะเป็นไปได้ยังไงละครับในเมื่อเด็กเราอ่อนคณิตศาสตร์ วิทยาศาสตร์ บัณฑิตเราเขียนโปรแกรมไม่เป็น มีบัณฑิตที่มีคุณภาพจำนวนไม่เกิน  2 พันคนต่อปี ถ้าจะมาทำธุรกิจเองก็คงรอดเพียงไม่กี่รายและยากที่จะ Scale เปิดบริษัทขนาดใหญ่ได้เพราะไม่มีทางที่จะหาคนได้ ทางแก้ก็คือยอมรับความจริงและวางแผนสร้างคนในอนาคต

  • เราต้องส่งเสริมอุตสาหกรรมด้านนี้ตามแนวทางทีถูกต้อง ถ้าต้องการคนไอทีจำนวนมากๆในระยะนี้เราอาจต้องไปทำในต่างประเทศหรือต้องออกกฎหมายให้เอื้อต่อคนไอทีต่างชาติ มาทำงานในไทยได้ง่ายขึ้น
  • เรามีกลุ่มเด็กเก่งๆจำนวนหนึ่งที่กำลังจะสร้างธุรกิจตัวเอง พัฒนาโปรแกรม เราต้องส่งเสริมคนเหล่านี้ให้เขาไปสู้บนเวทีโลก แต่เมื่อเขาต้องการขยายบริษัทต้องการโปรแกรมเมอร์จำนวนมากๆเราอาจต้องให้เขาเอาต่างชาติมาช่วยงาน และหา Mentor จากต่างชาติ จนกว่าเราจะพร้อม
  • ต้องหยุดกระแสเพ้อฝันว่าเรามีคน เด็กเราเก่งจะส่งเสริม Startup จำนวนเป็นพันเป็นหมื่นต่อปี ทั้งๆที่เด็กเราจบมาทำงานได้ยังมีเพียงแค่หลักพันต้นๆ และพร้อมที่ทำงานและเก่งจริงๆเผลอๆแค่หลักร้อยต้นๆ
  • เราต้องลดการรับนักศึกษาเข้าเรียน ปีหนึ่งรวมกันไม่ควรเกิน  4-5 พันคน และต้องปิดหลักสูตรทางด้านนี้ในหลายๆสถาบันครับ เพื่อลดปัญหาการมีบัณฑิตจบออกมามากอย่างขาดคุณภาพ บางสาขาเช่นคอมพิวเตอร์ธุรกิจควรจะปิดไปได้แล้ว
  • เราต้องปฎิรูประบบการศึกษากันใหม่ พัฒนาหลักสูตรใหม่ๆ อาจต้อง ฝึกอบรมอาจารย์กันใหม่ และต้องส่งเสริมให้ทำ R&D รวมถึงการเรียนการสอนทำหรับเทคโนโลยีใน 10-15 ปีข้างหน้า
  • หากเราต้องการสร้างบุคลากรทางด้านนี้ต้องวางแผนในระยะยาว ส่งเสริมการเรียนคณิตศาสตร์  วิทยาศาสคร์ ตั้งแต่เด็กๆครับ ต้องใช้เวลา  15  ปีเป็นอย่างน้อยในการสร้างคนรุ่นใหม่ออกมา

 

ธนชาติ นุ่มนนท์

IMC Institute

Big Data กับการใช้งานในภาครัฐและอุตสาหกรรมอื่นๆ

การนำข้อมูลขนาดใหญ่ไปใช้งานจริงๆ ยังมีไม่มากนัก ทั้งนี้ด้วยข้อจำกัดในเรื่องของเทคโนโลยีและจำนวนบุคลากรที่มีความสามารถ ซึ่งทางสมาคม PIKOM ของมาเลเซียได้ทำรายงานเรื่อง Global Business Services Outlook Report 2015 ชี้ให้เห็นผลกระทบของเทคโนโลยีด้าน Big Data ในประเทศกลุ่ม APAC และอุตสาหกรรมต่างๆ โดยสรุปมาเป็นตารางดังนี้

ตารางที่ 1 ระดับผลกระทบของเทคโนโลยี Big Data [แหล่งข้อมูลจาก PIKOM]

Screenshot 2016-06-11 08.24.00

ซึ่งจะเห็นได้ว่ากลุ่มอุตสาหกรรมที่มีผลกระทบต่อการประยุกต์ใช้เทคโนโลยี Big Data อย่างมากคือ อุตสาหกรรมด้านการเงินการธนาคาร (BFSI) ด้านโทรคมนาคม ด้านค้าปลีกรวมถึงพาณิชย์อิเล็กทรอนิกส์ (E-commerce) และด้านสุขภาพ ส่วนกลุ่มภาครัฐบาลและกลุ่มอุตสาหกรรมการผลิตมีผลกระทบปานกลาง สำหรับประเทศที่มีการประยุกต์ใช้ Big Data อย่างมากคือสหรัฐอเมริกาและสหราชอาณาจักร โดยประเทศญี่ปุ่น สิงคโปร์ และออสเตรเลียมีผลกระทบการประยุกต์ใช้งานปานกลาง ส่วนประเทศไทยอยู่ในกลุ่มที่เหลือที่ยังมีการประยุกต์ใช้งานน้อย

สำหรับตัวอย่างของการนำเทคโนโลยี Big Data มาใช้งานในภาคอุตสาหกรรมต่างๆ มีดังนี้

  • อุตสาหกรรมค้าปลีก อาจนำมาเพื่อวิเคราะห์ความต้องการของลูกค้า เพื่อทำให้เห็นข้อมูลของลูกค้ารอบด้าน (Customer 360) หรือการแบ่งกลุ่มลูกค้า (Customer Segmentation)  นำมาจัดแผนการตลาด สร้างแคมเปญตอบสนองต่อพฤติกรรมการอุปโภค บริโภค ที่ปรับเปลี่ยนอยู่ตลอดเวลา ให้ดึงดูดลูกค้าเข้ามาจับจ่ายใช้สอยมากที่สุด ในสภาพการแข่งขันที่สูง และมีช่องทางอื่นๆ ใหม่ๆ เข้ามาเป็นทางเลือกมากขึ้น
  • อุตสาหกรรมโทรคมนาคม อาจนำเพื่อใช้ในการวิเคราะห์เครือข่ายโทรศัพท์เคลื่อนที่ วิเคราะห์การใช้งานของลูกค้า การวิเคราะห์แนวโน้มการย้ายค่ายของลูกค้า (Customer Churn) และนำเอาข้อมูลไปต่อยอดเพิ่มการให้บริการอีกมากมาย อีกทั้งยังสามารถนำข้อมูลมาวิเคราะห์ เรื่องความมั่นคงปลอดภัย ให้เป็นประโยชน์กับลูกค้าและเพื่อสาธารณะได้อีกด้วย
  • อุตสาหกรรมการเงิน อาจนำมาเพื่อวิเคราะห์การฉ้อโกงเงิน การคาดการณ์ความต้องการของลูกค้า การแบ่งกลุ่มลูกค้า และการวิเคราะห์ความเสี่ยงของลูกค้า
  • ด้านวิทยาศาสตร์และเทคโนโลยีเช่น การพยากรณ์อากาศ การคาดการณ์ข้อมูลน้ำ หรือการวิเคราะห์ข้อมูลจากเซ็นเซอร์ต่างๆ การใช้งานพลังงาน
  • งานด้านการตลาด อาจนำมาเพื่อวิเคราะห์ข้อมูลจากเครือข่ายสังคมออนไลน์ (Social Media) การวิเคราะห์ข้อมูลที่พูดถึงสินค้าหรือแบรนด์ของหน่วยงาน (Sentiment Analysis) การค้นหาลูกค้าใหม่ๆ บนโลกออนไลน์
  • งานด้านบันเทิง หรือการท่องเที่ยว เป็นการวิเคราะห์กระแส ความนิยม talk of the town ในแต่ละกลุ่มบริการซึ่งมีส่วนเกี่ยวโยงกับ ข้อมูล ความคิดเห็น ในโซเชียลมีเดีย เป็นส่วนใหญ่ เพื่อจัดโปรแกรมหรืองาน ที่สร้างความสนใจให้ได้ตรงกับความสนใจของตลาด ในแต่ละช่วง แต่ละเวลา กับกลุ่มเป้าหมายที่ต่างกันไป

การประยุกต์ใช้งาน Big Data ในภาครัฐ

สำหรับตัวอย่างการใช้ประยุกต์ใช้งาน Big Data ในภาครัฐสามารถนำมาใช้งานได้ในหลายๆ หน่วยงานเช่น ด้านสาธารณสุข ด้านวิทยาศาสตร์ ด้านความมั่นคง ด้านการเงิน ด้านการบริการประชาชน ด้านเกษตรกรรม ด้านสาธารณูปโภค หรือด้านคมนาคม อาทิเช่น

  • การใช้เพื่อวิเคราะห์ข้อมูลอุตุนิยมวิทยาในการพยากรณ์อากาศ
  • การใช้เพื่อวิเคราะห์ข้อมูลการจราจร
  • การวิเคราะห์ข้อมูลเพื่อลดปัญหาและป้องกันการเกิดอาชญากรรม
  • การวิเคราะห์ข้อมูลด้านสาธารณสุข เช่น แนวโน้มของผู้ป่วย การรักษาพยาบาล หรือการเกิดโรคระบาด
  • การวิเคราะห์ข้อมูลด้านน้ำ แหล่งน้ำ ปริมาณฝน และการใช้น้ำ
  • การวิเคราะห์ข้อมูลการใช้ไฟฟ้า ค่าการใช้พลังงาน
  • การวิเคราะห์ข้อมูลการทหารและความมั่นคงต่างๆ
  • การวิเคราะห์ข้อมูลเพื่อตรวจสอบการเสียภาษีของประชาชนหรือบริษัทห้างร้านต่างๆ

ข้อดีของการประยุกต์ใช้เทคโนโลยี Big Data ในภาครัฐสามารถสรุปได้ดังนี้

  1. การใช้เงินงบประมาณและเงินรายได้ต่างๆ ของภาครัฐจะมีประสิทธิภาพมากขึ้น เพราะ Big Data จะช่วยคาดการณ์และวิเคราะห์ได้แม่นยำมากขึ้น
  2. ภาครัฐสามารถที่จะตรวจสอบข้อมูลการใช้งบประมาณได้ดียิ่งขึ้น
  3. ภาครัฐจะมีรายได้มากขึ้นหากมีการนำ Big Data มาใช้วิเคราะห์ข้อมูลการเสียภาษีด้านต่างๆ ว่ามีความถูกต้องเพียงใด
  4. ประชาชนจะได้รับการบริการที่ดีขึ้น เช่นการนำมาแก้ปัญหาจราจร  การให้บริการสาธารณสุข การให้บริการสาธารณูปโภค
  5. ประชาชนจะมีคุณภาพชีวิตที่ดีขึ้น เช่นเพิ่มความปลอดภัยโดยการวิเคราะห์แนวโน้มอาชญากรรม การมีสุขภาพที่ดีขึ้นจากการวิเคราะห์ข้อมูลสาธารณสุข
  6. เกิดความร่วมมือกับภาคเอกชนมากขึ้น จากการนำข้อมูลไปใช้
  7. จะมีข้อมูลใหม่ๆ มากขึ้นจากประชาชน (Crowdsourcing) หรือข้อมูลจากอุปกรณ์  Internet of Things
  8. เป็นการสร้างทักษะและผู้เชี่ยวชาญด้านข้อมูลมากขึ้น

อย่างไรก็ตามความท้าทายของการประยุกต์ใช้เทคโนโลยี Big Data ยังอยู่ที่ความร่วมมือของหน่วยงานต่างๆ โดยอาจสรุปปัญหาต่างๆ ที่ควรแก้ไขดังนี้

  1. วัฒนธรรมของหน่วยงานจำนวนมากที่จะรู้สึกหรือคิดว่าข้อมูลเป็นของหน่วยงานตนเอง โดยไม่มีการแชร์ข้อมูลให้กับหน่วยงานภายนอกหรือหน่วยงานอื่นในองค์กรเดียวกัน
  2. คุณภาพของข้อมูลที่อาจไม่สมบูรณ์หรือขาดความถูกต้อง
  3. ปัญหาเรื่องข้อมูลที่เป็นสิทธิส่วนบุคคล หรือความเท่าเทียมกันของการเข้าถึงข้อมูลของภาคประชาชน
  4. การขาดบุคลากรที่มีความสามารถทางด้านเทคโนโลยี Big Data

ดังนั้นสิ่งที่ภาครัฐควรจะต้องเร่งทำเพื่อให้มีการประยุกต์ใช้ Big Data ในองค์กรคือ

  1. พัฒนาความรู้ความเข้าใจในการประยุกต์ใช้เทคโนโลยี Big Data  และสร้างวัฒนธรรมการร่วมมือการแชร์ข้อมูล
  2. ออกกฎหมายหรือกฎระเบียบเพื่อให้เกิดการเปิดข้อมูลของภาครัฐ (Open Data)
  3. พัฒนาทักษะบุคลากรให้มีความรู้ด้านเทคโนโลยี Big Data  
  4. มีหน่วยงานกลางที่ให้บริการเทคโนโลยี Big Data เพื่อไม่ให้เกิดการลงทุนซ้ำซ้อน และไม่ควรให้ทุกหน่วยงานลงทุนซื้อเทคโนโลยีมากเกินไป

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

Big Data School กับการติดตั้ง Hadoop Distributions

 

ตามที่ผมเคยเล่าไว้ว่าเราจะจัด Big Data School รับนักศึกษา  15 คนมาฝึกงานสองเดือนในช่วงปิดเทอม โดยโครงการนี้เป็นงานที่ IMC Institute จัดร่วมกับ ICE Solution สุดท้ายเราก็ได้รับนักศึกษามาจากที่ต่างๆทั้ง จุฬาลงกรณ์มหาวิทยาลัย ลาดกระบัง พระนครเหนือ มหาวิทยาลัยราชมงคลรัตนโกสินทร์ ธุรกิจบัณฑิต หรือมาไกลๆจาก มหาวิทยาลัยนครพนม มหาวิทยาลัยฟาฏอนี หรือนักศึกษาไทยในต่างประเทศอย่าง Wesleyan University โดยเราเริ่มโครงการนี้ตั้งแต่วันที่  31 พฤษภาคม 2559

1465536090096

โครงการที่ทำในสัปดาห์แรกนอกจากมีเรื่องของกลุ่มสัมพันธ์แล้ว เราก็เริ่มสอนให้นักศึกษาใช้ Cloud เรื่องรู้และได้ทดลองระบบ Cloud ต่างๆทั้ง Amazon Web Services (AWS), Google Cloud และ  Microsoft Azure  โดยได้ทดลองใช้ EC2, RDS และ Auto-scaling  ซึ่งความรู้จากการใช้ Cloud Services นี้ก็เพื่อที่จะนำไปใช้ในการติดตั้ง Big Data Platform  ต่างๆ

นอกเหนือจากการเรียนรู้เรื่อง Cloud แล้วในสัปดาห์แรกก็ยังมีการแนะนำ Big Data Technology ต่างๆ และนักศึกษาเองก็เริ่มได้เห็นกับ Hadoop Technology ทดลองเล่น Hadoop Cloudera  ขนาด 5 เครื่องใหญ่ที่ติดตั้งบน  Cloud Cluster  ที่เป็น Account ของ  IMC Institute

ในสัปดาห์ที่สอง ตอนต้นเราเริ่มสอนตั้งแต่การใช้  Vitualization Tool อย่าง VirtualBox และ Container อย่าง  Docker จากนั้น เราก็แบ่งกลุ่มให้ใช้ Hadoop Sandbox ที่เป็น Distribution ต่างๆ เช่น

 

โดยในเบื้องต้นให้  VM ที่เป็น VirtualBox ลงที่เขียนตัวเอง จากนั้นก็เปลี่ยนไปให้ Docker โดยใช้ Virtual Server ที่เป็น Amazon EC2  ที่น่าสนใจคือนักศึกษาได้ทำกันสมบูรณ์และเขียนสรุปกันมาเป็น Slide ให้คนสามารถไปติดตั้งต่อได้ดังนี้

ตอนนี้นักศึกษากำลังติดตั้ง Hadoop Cluster ทั้ง 4 distributions โดยจะลงในเครื่อง Server ขนาดใหญ่ 4 เครื่องซึ่งถ้ามี  Slide และข้อมูลดีๆผมจะมา Update  อีกครั้ง

ธนชาติ นุ่มนนท์

IMC Institute

มิถุนายน 2559

 

 

 

การเปลี่ยนแปลงของอุตสาหกรรมไอทีไทยในยุค Cloud Computing

Screenshot 2016-06-05 22.21.12

ประมาณ 7-8 ปีก่อนสมัยผมยังทำงานอยู่ Software Park  ผมพยายามจะบอกกับกลุ่มบริษัทไอทีและซอฟต์แวร์ต่างๆว่า Cloud Computing  จะเป็นเทคโนโลยีที่เปลี่ยนแปลงรูปแบบของอุตสาหกรรมไอทีไปอย่างมาก ต่อไปเราคงไม่สามารถที่จะตืดตั้งระบบในรูปแบบเดิมได้ การใช้งานไอทีก็จะไม่เหมือนเดิม การขายระบบก็จะแตกต่างไปจากเดิม

แม้ในตอนนั้นภาพยังไม่ชัดเจนนัก แต่ในปัจจุบันข้อมูลต่างๆและแนวโน้มของอุตสาหกรรมไอทีได้บ่งชี้อย่างชัดเจนแล้วว่า Cloud Computing กำลังเข้ามาเปลี่ยนแปลงอุตสาหกรรมจริงๆ โดยเฉพาะแนวโน้มของตลาดโลกที่น่าจะต้องมีผลกระทบต่อวงการอุตสาหกรรมไอทีไทย เพื่อให้เห็นภาพของการเปลี่ยนแปลงของอุตสาหกรรมไอทีโลก เราอาจเห็นประเด็นต่างๆดังนี้

  • ตลาด Tradition IT ด้าน IT Infrastructure จะลดลงไปเรื่อยๆ และตลาด Public Cloud จะโตขึ้นอย่างรวดเร็วดังแสดงให้เห็นในรูปที่ 1 ที่ IDC คาดการณ์ว่าตลาด Tradition IT จะเหลือเพียงแค่ 55% ในปี  2019 ซึ่ง IDC ก็มีข้อมูลอีกชุดที่ออกมาต้นปี 2016 ทีระบุสอดคล้องกันว่าสัดส่วนของมูลค่าการลงทุนด้านไอทีที่เป็น Cloud กับ Non-cloud จะกลายเป็น 43% ต่อ 57% ใน 24 เดือนข้างหน้า และจะเป็น external cloud ถึง 32.1% และเป็น Private Cloud  11% ดังแสดงในรูปที่ 2
  • ตลาด Cloud จะโตขึ้นเป็น 500,000 ล้านเหรียญสหรัฐในปี 2026  ดังแสดงในรูปที่ 3 โดยตลาดส่วนใหญ่จะเป็น Software as a Service (SaaS)
  • ตลาด Cloud Computing ทำให้ผู้เล่นในตลาดเปลี่ยนไป อาทิเช่น ผู้นำตลาด IaaS กลับป็นบริษัทที่ไม่เคยเป็นผู้ผลิต Hardware มาก่อนเช่น  Amazon Web Services หรือ  Microsoft ขณะที่ Vendor ซึ่งเคยเป็นผู้นำในตลาด Hardware  อย่าง IBM, HP หรือ Sun-Oracle กลับไม่ได้เป็นผู้นำดังแสดงในรูปที่  4-5
  • ตลาด SaaS ทำให้รูปแบบการขายซอฟต์แวร์เปลี่ยนจาก License model ป็น  subscription model และทำให้มีผู้เล่นหลากหลายมากขึ้น โดยผู้นำตลาดอาจเปลี่ยนเป็นบริษัทอย่าง Salesforce หรือ Microsoft ดังแสดงในรูปที่  6
  • Vendor  ที่ขาย  Hardware ก็ต้องมุ่งขายไปให้กับลูกค้ากลุ่ม Cloud Provider มากขึ้น และหากเป็นกลุ่ม Enterprise ก็จะต้องเป็น Hardware สำหรับ Private Cloud ซึ่งผู้นำตลาดในกลุ่มของ Cloud Infrstructure จะเป็นบริษัทอย่าง HP Enterprise, Dell  และ Cisco  ดังแสดงในรูปที่  4 และ 7
  • บริษัทไอทีต่างๆต้องปรับตัว แม้แต่ Microsoft ทีในอดีตเป็นบริษัทซอฟต์แวร์ที่เน้นขาย Windows ก็ต้องปรับตัวเองเป็นผู้ขาย Cloud Infrstructure ที่ใช้ Platform ได้ก็ได้แม้แต่ Linux หรือ Java

เมื่อเห็นการเปลี่ยนแปลงของอุตสาหกรรมไอทีโลกแล้ว ก็น่าสนใจว่า Cloud Computing จะมีผลกระทบต่ออุตสาหกรรมไอทีไทยอย่างไร และเราเองจะต้องปรับตัวอย่างไร ผมเลยอยากขอเสนอมุมมองต่างๆดังนี้

  • Cloud Computing  จะทำให้ Cloud Vendor ต่างประเทศมีความจำเป็นจะต้องพึ่งผู้จำหน่ายในประเทศน้อยลง แม้ในระยะแรกอาจต้องหา  local distributor เพื่อบุกตลาดภายในประเทศ แต่ในระยะยาวความจำเป็นก็จะน้อยลง และ Margin ในการขายก็จะน้อยลง
  • Cloud computing จะทำให้ผู้ขายฮาร์ดแวร์ในประเทศต้องเปลี่ยนแปลงอย่างมาก การขาย Hardware  ในองค์กรขนาดเล็กจะเป็นเรื่องที่ยากขึ้นมากเพราะกลุ่มนี้ในอนาคตมีแนวโน้มไปใช้ Public Cloud ส่วนองค์กรขนาดใหญ่ก็จะมีแนวโน้มที่จะต้องพัฒนา Private Cloud มากขึ้น
  • ผู้ผลิตซอฟต์แวร์ในประเทศจำเป็นต้องปรับรูปแบบการพัฒนาซอฟต์แวร์เพื่อเข้าสู่ระบบ Cloud มากขึ้น และคงไม่สามารถขายซอฟต์แวร์ในราคาสูงแบบเดิม คงต้องเน้นเป็นแบบ SaaS มากขึ้น โดยเฉพาะกลุ่มที่เป็น SME เว้นแต่จะเป็นการพัฒนาซอฟค์แวร์ให้กับองค์กรขนาดใหญ่ที่อาจเป็นงาน customize ที่มีราคาดี หรือการขายระบบ  core application บางอย่าง
  • Cloud Computing จะทำให้งานทางด้าน System Integrator น้อยลง เนื่องจากระบบต่างๆจะมีความจำเป็นต้องการทำ customize หรือการทำ Integration น้อยลง

โดยสรุปจะเห็นได้ว่า โอกาสการแข่งขันของอุตสาหกรรมไอทีในอนาคตค่อนข้างจะลำบาก เราอาจจำเป็นต้องปรับธุรกิจไอที จากเดิมที่เน้นเป็น System Integrator, Hardware Distributor, License software vendor  มาสู่ผู้ให้บริการ Cloud ทั้งในส่วนของ SaaS หรือแม้แต่  IaaS  เราคงต้องเน้นที่จะต้องพัฒนาบุคลากรให้สามารถพัฒนา IT Emerging Technology  ต่างๆให้ได้ และต้องพยายามสร้างนวัตกรรมทางด้านให้มากขึ้นถึงจะแข่งขันในอนาคตได้

ธนชาติ นุ่มมนท์

IMC Institute

13087291_641282319352445_895269863284759965_n

รูปที่  1 การคาดการณ์ตลาด IT Infrastructure ของ IDC

13254734_10208479813506999_5246242415168747093_o

รูปที่ 2 การคาดการณ์งบประมาณด้านไอทีในอีก 2 ปีข้างหน้าของ IDC

Screenshot 2016-06-05 21.08.16

รูปที่ 3 การคาดการณ์มูลค่าของตลาด  Cloud ถึงปี 2026

13124736_642506239230053_3463226411031040896_n

รูปที่ 4  ข้อมูลการแสดงอัตราการเติบโตของตลาด Cloud ในไตรมาส 3  ปี  2015

Screenshot 2016-06-05 21.14.04

รูปที่ 5 ส่วนแบ่งการตลาด IaaS ไตรมาส 4 ปี 2015

Screenshot 2016-06-05 21.14.21

รูปที่ 6 ส่วนแบ่งการตลาด SaaS ครึ่งปีแรกปี 2015

13015178_633690320111645_3513477429709273579_n

รูปที่ 7 ส่วนแบ่งการตลาดสำหรับ IT Cloud Infrstructure ในปี 2015