การดูงาน Cloud Expo Asia 2014 ของหลักสูตร Cloud Computing for Senior Management

Screenshot 2014-10-27 18.27.31

ช่วงสัปดาห์นี้ ผมพาผู้ที่เข้าอบรมหลักสูตร Cloud Computing for Senior Management ของ IMC Institute ไปร่วมงาน Cloud Expo Asia ที่สิงคโปร์ซึ่งจัดขึ้นระหว่างวันที่ 29-30 ตุลาคม ปีนี้เป็นปีที่สองที่จัดงานนี้ โดยมีผู้ให้บริการ Cloud หลายรายจากทั่วโลก และเจ้าของผลิตภัณฑ์ที่เกี่ยวข้องกับ Cloud หลายรายมาร่วมออกบูธและบรรยายในงาน อาทิเช่น Amazon Web Services,Dell,Intel, Rackspace, Huawei, HP, Cisco และ SoftLayer งานนี้น่าจะเป็นงาน Cloud Computing ที่ใหญ่ที่สุดในเอเซีย โดยงานนี้จัดคู่กับงาน Data Center Expo ทำให้เห็น Booth จำนวนมากและมีการบรรยายหัวข้อต่างๆนับร้อยหัวข้อ

481326_405025372978142_4019319897038293296_n

ภาพบรรยากาศในงานคนค่อนข้างมากพอสมควร นอกจากทีมคนไทยที่ทาง IMC Institute พามาแล้ว ยังพบคนไทยที่มาจากหลายบริษัทและสถาบันการศึกษาเข้าร่วมดูงาน งานนี้ผู้จัดร่วมหลักๆคือ IDA ซึ่งเป็นหน่วยงานดูแลดานไอทีของรัฐบาลสิงคโปร์ งานนี้ Booth ที่ค่อนข้างใหญ่จะเป็นของ AWS ที่มาแสดง IaaS และมีของ HP Helion ที่ แต่ก็พบผุ้ให้บริการจากของสิงคโปร์อย่าง StarHub ที่มาออกบูธแสดงบริการ IaaS และ SaaS และยังมีบูธของกลุ่มผู้ให้บริการ Data Center ของมาเลเซีย รวมถึงผู้ให้บริการ Big Data อย่าง MapR หรือ Qubola ที่เป็น Hadoop as a Service มาแสดง ในแง่ของบริษัทในไทยก็มีบริษัทอย่าง Computerlogy ที่มานำเสนอ TH3RE ที่เป็น Cloud Software ทำ Social Media Command Center ซึ่งเมื่อดูเทคโนโลยีจากบูธต่างๆที่นำมาแสดงจะเห็นได้ว่าเทคโนโลยี Cloud Computing เปลี่ยนไปเร็วมากจนเราตามแทบไม่ทัน

Screenshot 2014-10-30 19.27.42

การบรรยายในงานแบ่งเป็นห้อง Keynote 2 ห้อง และห้องอื่นๆอีกร่วม10 ห้อง โดยมี session ที่หลากหลายตั้งแต่ด้าน Cloud Security, Cloud Management, Big Data and Analytics การบรรยายแต่ละหัวข้อใช้เวลาประมาณ 20-30 นาที มีหัวข้อที่น่าสนใจเต็มหมด แต่ก็น่าเสียดายที่ไม่สามารถเข้าไปฟังได้ทั้งหมด ผมเลือกที่จะฟัง Keynote บางหัวข้อที่เป็น Big Data and Analytics ในงานนี้ ดร.ศักดิ์ เสกขุนทด ผอ.สำนักงานรัฐบาลอิเล็กทรอนิกส์ (EGA) ก็มาบรรยายเป็น Keynote ในหัวข้อ Thailand G-Cloud: The story so far and the next step ก็หวังว่าทางผู้จัดคงมีการแชร์ presentation จากการบรรยายต่างๆมาให้เราได้ดูกัน

   10609479_405402539607092_3549559096381968890_n

ก่อนเริ่มงาน Cloud Expo Asia เราได้พาผู้เข้าร่วมอบรมไปเยี่ยมชมบริษัท Oracle ที่มาแนะนำเรื่อง Cloud ทำให้ทราบถึงโซลูชั่นที่เป็น private และ public cloud ของ Oracle ที่น่าสนใจคือ Virtualization Product ที่ชื่อ Oracle Virtualization Manager ที่ลดค่าใช้จ่ายเรื่อง license เมื่อต้องการใช้ Oracle Product ต่างๆ เช่น Database หรือ Web Server และเป็น VM ที่สามารถรันกับ OS ต่างๆทั้ง Windows, Linux และ Solaris โดย Oracle มีเครื่อง server ที่เป็น Appliance สามารถติดตั้งเป็น Private Cloud ที่ทำเป็น IaaS, PaaS และ SaaS ได้ หรือจะใช้ Public Cloud ที่มีคุณสมบัติเดียวกันจากเว็บไซต์ cloud.oracle.com 

544920_405402176273795_7586001560181715799_n

จากนั้นก็ไปดูงานต่อที่บริษัท Amazon Web Services การบรรยายของ AWS ทำให้มั่นใจในเรื่องระบบความปลอดภัยบริการ IaaS ของ AWS และที่น่าสนใจคือแม้แต่ทางทีมงานด้านการขายหรือการตลาดของ AWS ก็ไม่ทราบตำแหน่งที่ตั้งของ AWS Data Center ที่สิงคโปร์เพื่อความปลอดภัย และทีมงาน AWS ก็ไม่สามารถที่จะมาดึงข้อมูลต่างๆของผู้ใช้บริการได้ นอกจากนี้ AWS ยังมีบริการที่หลากหลายมากสมกับผู้ใหับริการ IaaS เบอร์หนึ่งของโลก และมีลูกค้าอยู่จำนวนมาก ซึ่งทางทีม AWS ก็แนะนำตัวอย่างลูกค้าใน ASEAN และในประเทศไทย หลายรายก็เป็นบริษัท Startup หรือหน่วยงานอย่างธนาคาร ที่ทำงานของ AWS น่าสนใจมากเพราะมีห้องที่ให้พนักงานพักผ่อนและมีเครื่องดื่มแม้กระทั่งเบียร์ให้ดื่มได้ฟรี

Screenshot 2014-10-30 19.52.12

ส่วนเช้าวันที่ 30 ตุลาคม เรามาดูงานที่บริษัท Microsoft  โดยทางไมโครซอฟต์ได้จัด session แนะนำ Office 365 ซึ่งเป็น SaaS โดยนอกจากแนะนำคุณสมบัติต่างๆของ Office 365 แล้วก็ยังเน้นให้เห็นถึงเรื่องความปลอดภัยของการเก็บข้อมูลที่อยู่ใน OneDrive ที่น่าสนใจมาก โดยเฉพาะเรื่อง encryption จนผู้ที่มาจากด้านธนาคารบอกว่าโซลูชั่นนี้ตอบโจทย์เรื่องความปลอดภัยได้ดี นอกจากนี้ได้ฟังบรรยายเรื่อง Microsoft Azure ที่เป็น Public Open Cloud Platform ที่สามารถทำงานกับทุกๆ Product ได้ตั้งแต่ Java, .NET หรือ Linux ซึ่งเป็นเหตุผลให้ Microsoft เปลี่ยนชื่อ Product จาก Windows Azure เป็น Microsoft Azure และพูดถึงประโยชน์การใช้ Dev Test Environment บน Azure ที่มีสำหรับ SAP, Oracle  หรือ Sharepoint และพูดถึงระบบความปลอดภัยของ Azure สุดท้ายทาง Microsoft ได้พามาชม Microsoft Technology Center ที่แสดงผลิตภัณฑ์ต่างๆของ Microsoft ที่น่าสนใจ

1376554_405402349607111_2727954607712893955_n

ตอนบ่ายวันที่ 30 ตุลาคม เราไปดูงานต่อที่บริษัท VMWare ซึ่งเป็นผุ้นำการตลาดด้านซอฟต์แวร์ Virtualization ที่มาพูดถึง Software Defined Data center (SDDC) โดยพยายามเน้นให้เห็นว่าสิ่งที่ธุรกิจต้องการต่อจาก Virtualization คือ Speed/Agility ซึ่งถ้าทีมไอทีไม่สามารถให้คำตอบเรื่องนี้ได้ทีมกลุ่มธุรกืจก็จะมองข้ามทีมไอทีไปหาโซลูชั่นเช่น Public Cloud  ทาง VMware แสดงโซลูชั่นสำหรับทำ Cloud Management Platform ทำให้เราสามารถสร้าง Private Cloud เพื่อตอบโจทย์ทีมกลุ่มธุรกิจในการทำ service provisioning ได้อย่างรวดเร็วการให้บริการ Infrstructure หรือ Application ตอบโจทย์ที่จะช่วยดูค่าใช้จ่ายในการใช้ไอที และช่วยตอบโจทย์ในการ operate ไอทีได้

สุดท้ายนี้คงต้องขอบคุณทุกท่านช่วยประสานงานและต้อนรับผู้เข้าอบรมในการดูงานครั้งนี้ ขอบคุณคุณเอกราช คงสว่างวงศา จาก Microsoft Thailand, คุณชลตะวัน สวัสดี จาก Amazon Web Services, ดร.ชวพล จริยาวิโรจน์ และ คุณเอกภาวิน สุขอนัตต์ จาก VMWare และคุณพีระพงษ์ คุณาศิริรัตน์ จาก Oracle Thailand

ธนชาติ นุ่มนนท์

IMC Institute

ความพร้อมด้าน Big Data ของบ้านเรา คงต้องให้ระยะเวลาอีกพักหนึ่ง

Big Data เป็นเทคโนโลยีที่ถูกกล่าวขานกันมากที่สุดในช่วง 1-2 ปีนี้ Big Data ไม่ใช่เรื่องที่พูดกันเฉพาะวงการไอทีแต่มีการพูดถึงกันมากในทุกภาคส่วนอุตสาหกรรมทั้งด้านการตลาด ภาคการค้าขาย ภาคสาธารณสุข วงการวิทยาศาสตร์ ภาครัฐบาล หรือแม้แต่ภาคการเงินการธนาคาร หลายๆคนกล่าวกันการเข้ามาของ Big Data จะทำให้เรามีข้อมูลที่ดีขึ้น สามารถคาดการณ์ข้อมูลแม่นยำยิ่งขึ้น และเมื่อเห็นโลกของ Social Network ที่โตขึ้นอย่างรวดเร็ว หลายคนก็คิดว่าน่าจะเป็นโอกาสที่ดีของ Big Data บางคนพยายามจะบอกว่า Big Data ของประเทศไทยกำลังจะโตขึ้นมากจะมีการใช้กันมากมายเพราะเรามีการใช้อินเตอร์เน็ตแบะ Social Media มากขึ้น และบ้างก็เข้าใจว่าบ้านเราพร้อมและอยู่แนวหน้าทางด้าน Big Data ในฐานะที่ผมอยู่ในภาคอุตสาหกรรมและเกี่ยวข้องการภาคการศึกษาโดยตรงในการพัฒนาบุคลากร และได้เริ่มสนใจเรื่อง Big Data อย่างจริงจังในช่วงสองปีที่ผ่านมา อาจเห็นแย้งในเรื่องนี้ จึงขอให้เหตุผลประกอบว่าทำไมบ้านเรายังต้องพัฒนาเรื่อง Big Data อีกมากก่อนจะพร้อมที่แข่งขันกับที่อื่นๆได้ดังนี้

การขาดความเข้าใจเรื่อง Big Data

คนจำนวนมากยังไม่เข้าใจว่า Big Data คืออะไร หลายๆคนก็ไปแปลตรงๆว่าคือข้อมูลใหญ่ซึ่งส่วนหนึ่งก็ไม่ผิดอะไร ผมเคยเขียนบทความหลายๆครั้งแล้วเรื่องความหมายของ Big Data จึงไม่อยากกล่าวซ้ำอีก แต่สิ่งสำคัญคือ Big Data คือการมองอนาคตที่จะเปลี่ยนแปลงรูปแบบของการจัดการข้อมูล แผนกไอทีจะต้องพร้อมที่จะบริหารจัดการกับข้อมูลแบบผสม (Hybrid Data) ที่จะมีทั้ง structure data และ unstructure data รวมถึงความสามารถในการที่นำ Dark Data ซึ่งเป็นข้อมูลที่เราเก็บไว้แต่ไม่เคยนำมาใช้ประโยชน์ มาสร้างประโยชน์ให้กับหน่วยงาน นอกจากนี้บางครั้งเรายังไม่เข้าใจถึงประโยชน์ของ Big Data ที่ได้จากการทำ Predictive Analytics ซึ่งมันแตกต่างกับการทำ Business Intelligence ที่เราเคยทำกัน และการทำ Big Data Analytics ต้องการบุคลากรที่เป็น Data Scientist ไม่ใช่เฉพาะ Programmer หรือ Business Analytist  ความเข้าใจคาดเคลื่อนเกี่ยวกับ Big Data ทำให้องค์กรขาดการเตรียมพร้อมเกี่ยวกับเรื่องนี้ และเข้าใจผิดคิดว่าโครงสร้างข้อมูลในปัจจุบันรองรับแล้ว ขาดการเตรียมพร้อมด้านบุคลากรทั้งทางด้านไอทีและนักวิเคราะห์ข้อมูล

ขาดข้อมูลขนาดใหญ่

ข้อมูลส่วนใหญ่ในบ้านเรายังเป็นข้อมูลแบบปิดยังไม่มีการทำ Open Data กันมากเท่าไร และข้อมูลที่มีอยู่ส่วนมากก็เป็นเพียง structure data ขนาดที่แนวโน้มของ Big Data ระบุว่าข้อมูลเกือบ 80% จะเป็น unstructure data ขณะที่ข้อมูลที่เก็บอยู่ในบ้านเราจะมีเพียงเล็กน้อย หน่วยงานที่จะมีข้อมูลมากกว่า 10 TB ก็หาค่อนข้างยาก หน่วยงานที่มีข้อมูลมากๆก็จะเป็นข้อมูล Transaction ของลูกค้าเช่น CDR ของบริษัทด้าน Telecom เรายังไม่มีผู้ให้บริการที่ให้ข้อมูล unstructure เช่น Web Crawler, Social Network ที่ให้เราดึงข้อมูลขนาดใหญ่มาวิเคราะห์ได้ แต่การจะใช้ประโยชน์จาก Big Data ได้อย่างเต็มที่ส่วนหนึ่งก็คือการต้องนำข้อมูลภายนอกองค์กร (External Data) เหล่านี้มาช่วยในการวิเคราะห์ คาดการณ์ต่างๆ เราจะเห็นได้ว่าเราสามารถไปดึงข้อมูลจากต่างประเทศที่เป็น unstructure หรือ semi-structure ขนาดใหญ่เช่น ข้อมูล Twitter หรือข้อมูลจากYelp มาได้ หรือแม้แต่ข้อมูลจาก Web Crawler ที่มีขนาดมากกว่า 500 TB ก็ยังมีให้บริการ ขณะที่บ้านเราไม่มีบริการข้อมูลเหล่านี้ การทำ Big Data ให้ได้ประโยชน์อย่างเต็มที่ ต้องมีข้อมูลขนาดใหญ่ๆที่ว่าแต่บ้านเรายังขาดอยู่ คงต้องใช้เวลาอีกหลายปีจึงจะได้ข้อมูลที่ดีขึ้น

ขาดบุคลากรด้าน Big Data

ปัญหานี้ถ้าพูดไปเป็นเป็นคลาสสิคในวงการไอที ไม่ว่าเทคโนโลยีใหม่อะไรเข้ามาบ้านเรามักจะขาดคนไม่ว่าจะเป็นด้าน Mobile Developer, Cloud Computing Expert หรือ Enterprise Architect แต่ปัญหาการขาดบุคลากรด้าน Big Data เป็นปัญหาทั่วโลก เพราะสำนักวิจัย Gartner คาดการณ์ว่าจะมีความต้องการบุคลากรด้านนี้ทั่วโลกถึง 4.4 ล้านตำแหน่งในปี 2015 และเป็นตำแหน่งงานทึ่สหรัฐอเมริกาถึง 1.9 ล้านตำแหน่ง แต่ปรากฎว่าจะมีเพียง 1/3 เท่านั้นที่หาบุคลากีที่มีทักษะตรงกับที่ต้องการได้ งานทางด้าน Big Data หนึ่งตำแหน่งจะสร้างงานตำแหน่งอื่นๆนอกกลุ่มไอทีได้ถึงสามตำแหน่ง การขาดแคลนบุคลากรทางด้านนี้ทำให้หน่วยงานต้องเร่งพัฒนาบุคลากรและหาวิธีการดึงดูดบุคลากรเข้ามาในหน่วยงาน เทคโนโลยี Big Data ต้องการบุคลากรที่มีทักษะใหม่ๆในการบริหารจัดการข้อมูลที่กำลังเปลี่ยนแปลง ต้องรู้ถึงการใช้เทคโนโลยีใหม่ๆ และต้องการบุคลากรที่มีความสามารถในการวิเคราะห์ข้อมูลและคาดการณ์เรื่องต่างๆได้ ซึ่งบ้านเรายังขาดบุคลากรเหล่านี้อีกมาก

ขาดเทคโนโลยีสำหรับโครงสร้างข้อมูลแบบใหม่

การเข้ามาของ Big Data ทำให้หน่วยงานจะต้องลงทุนโครงสร้างพื้นฐานด้านข้อมูลเพิ่มเติม ฐานข้อมูลแบบ RDBMS เดิมไม่สามารถจะรองรับ unstructure data ได้ ทาง Gartner เองก็ระบุว่า 75% ของ Data Warehouse ในปัจจุบันจะไม่สามารถรองรับข้อมูลในเรื่องของ Velocity และ Variety ได้ การเข้ามาของ unstructure data ขนาดใหญ่ทำให้หน่วยงานต้องนำเทคโนโลยีใหม่อย่าง Hadoop หรือ No SQL เข้ามาใช้ โดย Hadoop ก็เป็นหนึ่งในเทคโนโลยีที่น่าสนใจที่สุดสำหรับเก็บข้อมูลหลายร้อย TB ซึ่งจากการสำรวจองค์กร 86% ทั่วโลกก็ยังไม่สามารถบริหารจัดการข้อมูลได้อย่างเหมาะสม นอกจากนี้องค์กรก็อาจต้องลงทุนทางด้าน BI & Analytics Tool เพื่อจะได้ประโยชน์จากการใช้ข้อมูลต่างๆทั้งแบบ Structure และ unstructure ที่อยู่ภายในและภายนอกองค์กร  ซึ่งในปัจจุบันมีหน่วยงานเพียง 13% ที่มีเครื่องมือแบะสามารถทำ Predictive Analytics ได้

จากที่กล่าวมาทั้งหมดนี้ จะเห็นว่าการประยุกต์ใช้ Big Data เป็นเรื่องที่ยากและซับซ้อนกว่าที่เราคิด และเป็นเรื่องที่ท้าทายสำหรับองค์กรต่างๆทั่วโลก แม้จะบอกว่าบ้านเรายังไม่พร้อม แต่เชื่อว่าถ้าเราตั้งใจทำกันจริงๆ ปรับความเข้าใจ สร้างข้อมูลให้มากขึ้น พัฒนาบุคลากร และพัฒนาโครงสร้างพื้นฐานด้านข้อมูล บ้านเราแข่งกับเขาได้แน่

ธนชาติ นุ่มนนท์

IMC institute

Screenshot 2014-10-27 18.27.31

Cloud Application ที่ SME ควรเลือกใช้

Screenshot 2014-10-27 18.27.31

แม้ในปัจจุบันคนไทยจะมีการใช้ไอทีกันมากขึ้น มีการใช้อินเตอร์เน็ตผ่าน Smartphone หรือ Tablet มากขึ้น มีการสนทนาสื่อสารผ่านแอปพลิเคชั่นอย่าง Line หรือ Facebook มากขึ้น แต่สิ่งหนึ่งที่พบก็คือส่วนใหญ่ยังใช้เพื่อความบันเทิงและเรื่องส่วนตัว มากกว่าในงานหรือเพื่อทางธุรกิจ ถ้ามีการนำไอทีใหม่ๆเข้ามาใช้ในงานเพื่อทางธุรกิจโดยมากที่เห็นก็เป็นแค่การใช้ Group Chat ใน Line เพื่อสื่อสารและโต้ตอบในการทำงาน แต่การใช้ Collaboration Tools ในการทำงานอื่นๆยังถือว่าน้อยมาก และยิ่งเห็นช่องว่างมากขึ้นเมื่อเปรียบเทียบการใช้งานของคนต่างจังหวัดกับคนในกรุงเทพมหานครที่เริ่มมีการใช้งานด้านไอทีมากกว่า

จริงๆแล้วการเปลี่ยนแปลงของเทคโนโลยีสู่ยุคของ Cloud Computing ทำให้เกิดประโยชน์อย่างมหาศาลในการทำงาน เพราะนอกจากค่าใช้จ่ายลดลง ข้อมูลหรือ Application ที่ขึ้นไปอยู่บน Cloud ช่วยทำให้เราสามารถทำงานจากที่ไหนหรืออุปกรณ์ใดๆก็ได้ และข้อสำคัญการใช้ Cloud Computing จะช่วยทำให้เราสามารถทำงานร่วมกันแบบออนไลน์ (online collaboration) ได้ ผู้ประกอบการ SME คือกลุ่มหนึ่งที่จะใช้ประโยชน์จาก Cloud ได้มากที่สุดกลุ่มหนึ่ง ซึ่งเมื่อเร็วๆนี้ผมก็ได้ไปบรรยายการใช้ Cloud ให้กับกลุ่มผู้ประกอบการ SME ในต่างจังหวัด แต่น่าเสียดายที่พบว่าส่วนใหญ่ยังไม่ค่อยเข้าใจความหมายของ Cloud และมีการนำไอทีมาใช้เในเชิงธุรกิจน้อย บางรายก็กลัวกับค่าใช้จ่ายแพงๆ บางรายก็ไม่ทราบว่ามีแอปพลิเคชั่นบน Cloud ตัวใดบ้าง

Cloud Computing จะเข้ามาช่วยลดค่าใช้จ่ายการใช้ไอที และเหมาะกับ SME ที่อาจต้องการให้ความสำคัญกับการดำเนินงานธุรกิจของตัวเองมากกว่าจะต้องมาวุ่นวายในการบริหารจัดการไอทีซึ่งอาจไม่ใช่ความถนัดขององค์กร หาก SME  เลือกApplication  ที่อยู้บน Cloud ที่เหมาะสมมาใช้งาน จะทำให้ธุรกิจแข่งขันได้ เช่นการทราบข้อมูลลูกค้า การติดต่อออนไลน์ การลดเวลาการทำเอกสาร และโดยแท้จริงแล้วมี Cloud Application อยู่มากมายบางอันสามารถเริ่มต้นได้โดยไม่มีค่าใช้จ่าย บางอันให้เราทดลองใช้ก่อน และโปรแกรมเหล่านี้สามารถใช้งานได้โดยง่าย ซึ่งทุกคนสามารถเริ่มต้นใช้งานได้ทันทีโดยไม่ต้องรออะไร เพราะ Cloud Application สามารถลงทะเบียนใช้งานและติดต่อซื้อได้ผ่านระบบออนไลน์ทันที วันนี้ผมเลยขอแนะนำ Cloud Application เด่นๆสำหรับ SME เพื่อให้ทดลองใช้งานดังนี้

1) Google Apps for Work

ผู้ประกอบการไทยจำนวนมากยังใช้ Public E-mail อย่าง  Google, Yahoo หรือ WindowLive  (เช่น @gmail.com) ในการติดต่อธุรกิจ การใช้อีเมล์แบบนี้เป็นเรื่องทีดูไม่เหมาะสมเพราะเหมือนกับเป็นการใช้อีเมล์ส่วนตัว มากกว่าการใช้งานธุรกิจ โดยเฉพาะการติดต่อกับต่างประเทศจะดูว่าขาดควาน่าเชื่อถือ หากเราต้องการใช้อีเมล์ของ Google  เราสามารถที่จะใช้โปรแกรม Cloud Apps for Business ซึ่งทาง Google ให้บริการกับหน่วยงานธุรกิจ และทำให้เรามีอีเมล์ของบริษัทเราเอง อาทิเช่น thanachart@imcinstitute.com นอกจากนี้ก็ยังมีโปรแกรมอื่นๆที่ทำให้เราสามารถทำงานร่วมกับพนักงานในบริษัทได้อาทิเช่น

  • Google Calendar  สำหรับการจัดตารางนัดหมายของตัวเองและทีมงาน
  • Google Drive สำหรับเก็บข้อมูลบน  Cloud เหมือน Dropbox ที่ทำให้เราสามารถใช้ข้อมูลของเราจากเครื่องไหนก็ได้ผ่านระบบอินเตอร์เน็ต และสามารถแชร์ข้อมูลให้คนอื่นได้ ทำให้ลดการส่งข้อมูลขนาดใหญ่ผ่านอีเมล์ และลดการใช้  ThumbDrive
  • Google Office Suite เป็นชุดโปรแกรมทำเอกสาร สเปรดชีต หรือสไลด์ ที่สามารถสร้างและแก้ไขเอกสารได้แบบออนไลน์และสามารถทำเอกสารร่วมกัน (collaboration) กับผู้อื่นได้แบบ Real time ทำให้การแก้ไขเอกสารเป็นไปได้ง่าย และสะดวกเมื่อต้องทำเอกสารร่วมกันจากที่ต่างๆกัน
  • Google Site สำหรับการทำ Web Site ของบริษัท

Screenshot 2014-10-25 17.23.45

Google กำหนดราคา Google App for Works  ไว้ที่ราคา $5 ต่อผู้ใช้ต่อเดือนกรณีที่ต้องการพื้นที่เก็บข้อมูลออนไลน์ 30GB และราคา $10 ต่อผู้ใช้ต่อเดือนกรณีที่ต้องการพื้นที่เก็บข้อมูลไม่จำกัด เราสามารถเริ่มต้นทดลองใช้งานได้ฟรีได้ที่ Free Trial Google App for Works

2) Microsoft Office 365

จุดเด่นของ Google Apps  คือการมีระบบอีเมล์และการใช้ Cloud Storage  แต่ถ้าพูดถึงการใช่เครื่องมือออนไลน์ทำเอกสารอย่าง Google Docs หลายๆคนอาจไม่คุ้นเคยเพราะโดยมากธุรกิจในบ้านเราจะทำเอกสารโดยใช้ Microsoft Office ซึ่งหลังจากที่ Microsoft ปล่อยให้ Google เข้ามาทำเครื่องมือการทำเอกสารแบบร่วมกันอยู่หลายปี ทาง Microsoft ก็เลยต้องทำ Microsoft Office ให้เป็นเวอร์ขั่นบน Cloud ที่สามารถจะใช้โปรแกรม Microsoft Office ออนไลน์ สามารถเก็บข้อมูลบน Cloud และสามารถทำเอกสารร่วมกันได้อย่าง Google Docs โดยตั้งชื่อผลืตภัณฑ์ว่า Office 365

Screenshot 2014-10-25 17.43.30

Office 365 ก็จะมีผลิตภัณฑ์ต่างๆคล้ายกับ Google Apps คือมีระบบอีเมล์ที่เราสามารถตั้งที่อยู่ตามธุรกิจของเรา (name@yourcompany.com) พร้อมเนื้อที่เก็บอีเมล์ 50 GB  มีระบบ Calendar มีระบบ Cloud Storage ที่ชื่อว่า OneDrive ให้จำนวน 1TB มีโปรแกรม Office Online ที่ให้เราสามารถทำงานร่วมกันได้ และมีโปรแกรม Lync สำหรับการประชุมออนไลน์และการประชุมทางวิดีโอแบบ HD

Screenshot 2014-10-25 17.38.13

Microsoft กำหนดราคา Office 365 สำหรับธุรกิจไว้สามแบบคือ

  • Business Essential ราคา $5 ต่อผู้ใช้ต่อเดือน สำหรับผู้ที่ต้องการใช้โปรแกรม Office Online  และอีเมล์ พร้อมทั้ง OneDrive ขนาด  1TB
  • Business ราคา $8.25 ต่อผู้ใช้ต่อเดือน สำหรับผู้ที่ต้องการใช้โปรแกรม Office Online และต้องการใช้ออฟไลน์ลงบนเครื่องพีซีที่เป็น Windows, Mac หรือ Tablet ที่ใช้ Windows จำนวนสูงสุด 5 เครื่อง แต่จะไม่มีระบบอีเมล์และโปรแกรม Lync
  • Business Premium ราคา $12.5 ต่อผู้ใช้ต่อเดือน สำหรับผู้ที่ต้องการใช้โปรแกรมแบบ  Business  ที่รวมอีเมล์เข้าไปด้วย

ถ้าผู้ใช้เลือกโปรแกรมแบบ  Business ผมแนะนำให้ใช้ Google Docs ร่วมกัน แต่ถ้าเลือกโปรแกรม  Business Essential หรือ Business Premium  ก็คงไม่มีความจำเป็นต้องหาระบบอีเมล์เพิ่มเติม

3) Dropbox

เชื่อว่าคนจำนวนมากเริ่มใช้ Dropbox ที่เป็น Cloud Storage แต่คนหลายๆคนที่ใช้ Dropbox ก็ยังไม่ได้นำมาใช้เพื่องานด้านธุรกิจเต็มที่ Dropbox ช่วยทำให้เราลดการใช้ Physical Storage อย่าง Harddisk  หรือ  Thumbdrive เราสามารถที่จะแชร์ไฟล์ต่างๆของเราจาก Dropbox ให้คนอื่นๆสามารถใช้ร่วมกันกับเราได้ และสามารถที่จะดูไฟล์เวอร์ชั่นย้อนหลังได้ นอกจากนี้ยังทำการสำรองข้อมูลให้เราอัตโนมัติทำให้เรามั่นใจว่าข้อมูลของเราไม่สูญหายแม้เครื่องคอมพิวเตอร์ของเราจะเสียหาย นอกจากนี้ยังช่วยลดการส่งไฟล์ผ่านอีเมล์ได้ Screenshot 2014-10-26 06.32.17 ผู้ที่ใช้ฟรีเวอร์ชั่นส่วนใหญ่ของ Dropbox จะมีขนาดเริ่มต้นตั้งแต่  2GB และสามารถที่จะซื้อบริการเพิ่มขนาดเป็น 1 TB ในราคา $ 9.99 ต่อเดือน หรือเลือกใช้โปรแกรม Dropbox for Business ที่ราคา $ 15 ต่อเดือน สำหรับลูกค้าธุรกิจที่ต้องการพื้นที่ไม่จำกัด และสามารถเก็บข้อมูลเวอร์ชั่นเก่าหรือไฟล์ที่ถูกลบไม่จำกัด รวมถึงมีระบบรักษาความปลอดภัยที่ดีขึ้น หลายท่านอาจจะสงสัยว่าถ้ามี Google Drive ใน Google Apps หรือ One Drive ใน Office 365 แล้ว เราต้องมีโปรแกรม Dropbox อีกไหม ซึ่งถ้าต้องการเฉพาะ Cloud Storage ก็คงพอแล้ว แต่ถ้าต้องการใช้คุณสมบัติเด่นอื่นๆเช่น การ Sync ไฟล์ การแชร์ไฟล์ การใช้โปรแกรมเฉพาะ การมีพื้นที่ไม่จำกัด โปรแกรม Dropbox จะทำได้ดีกว่า

4) Salesforce

การเก็บข้อมูลของลูกค้าเข้าสู่ระบบคอมพิวเตอร์เป็นเรื่องสำคัญมาก การทราบข้อมูลของลูกค้า ข้อมูลการขาย , ข้อมูลการติดต่อกับลูกค้า จะช่วยทำให้ธุรกิจเราเป็นไปได้ดียิ่งขึ้น โปรแกรมที่เกี่ยวกับการบริหารข้อมูลลูกค้าหรือที่เรียกว่า CRM ( Customer Relationship Management ) ในอดีตจะมีราคาแพงทำให้ธุรกิจต่างๆไม่สามารถจัดหามาใช้งานได้ แต่เมื่อมีเทคโนโลยี Cloud บริษัทอย่าง Salesforce ก็ได้จัดบริการ CRM บน Cloud  ทำให้เราสามารถเก็บข้อมูลของลูกค้าบน Cloud และโปรแกรมมีราคาถูกลงมาก โดยเราสามารถที่จะใช้โปรแกรมผ่่าน Web Browser จากเครื่องใดก็ได้ หรือจะใช่้  Mobile App ที่ชื่อ Salesforce1 ก็ได้ ทำให้ทำงานได้คล่องตัวจากที่ใดก็ได้ ในปัจจุบัน Salesforce มีผู้ใช้จำนวนมากกว่า 2 ล้านคนและมีรายรับประมาณ 2.2 พันล้านเหรียญสหรัฐอมริกาเมื่อปี 2012  ซึ่งถือว่าเป็นบริษัททางด้าน SaaS Cloud ที่มีรายได้สูงสุด ทั้งนี้โปรแกรม CRM  ของ Salesforce.com จะมีโซลูชั่นอยู่หลายตัวทั้ง Sales Cloud, Service Cloud, Marketing Cloud, Data Cloud และ Collaboration Cloud (Chatter) ซึ่งผู้ใช้สามารถเลือกใช้โซลูชั่นต่างๆเหล่านี้ได้โดยมีค่าใช้จ่ายตามจำนวนผู้ใช้ต่อเดือน ในประเทศไทยก็มีหลายองค์กรที่ใช้ Salesforce รวมทั้ง ภาคการเงินการธนาคารอาทิเช่น  ธนาคารไทยพาณิชย์

Screenshot 2014-10-26 07.05.14 ทาง IMC Institute ก็เป็นหนึ่งในหน่วยงานที่ใช้ Salesforce โดยได้ใช้ Force.com มาพัฒนาโปรแกรมระบบบริหารการฝึกอบรมที่เก็บข้อมูล CRM จำนวนหลายหมื่นเรคอร์ดโดยใช้เวลาในการพัฒนาเพียง 1 สัปดาห์ ทำให่้การทำงานของหน่วยงานมีความคล่องตัวมาก ทั้งนี้โปรแกรม  Salesforce.com มีค่าใช้จ่ายเริ่มต้นที่ $25 ต่อผู้ใช้ต่อเดือน และยังมีตลาดกลางที่ชื่อ  AppExchange  ซึ่งในปัจจุบันมีโปรแกรม Business Application มากกว่า  1,700 Apps ที่มีโปรแกรมทั้งทางด้าน HR, Finance, Project Management และ ERP ให้เราสามารถเลือกซื้อใช้บริการเพิ่มเติมจากโปรแกรม  Sales Cloud  ได้

Screenshot 2014-10-26 07.06.35

5)  Skype

ถึงแม้ว่าคนไทยส่วนใหญ่จะเลือกใช้ Line เป็นโปรแกรมสำหรับการติดต่อสื่อสารผ่านระบบมือถือ แต่เราปฎิเสธไม่ได้ว่า Line  เป็นที่นิยมใช้งานในไม่กี่ประเทศอาทิเช่น ญี่ปุ่น ไทย หรือ ไต้หวัน แต่ตลาด Instant Messaging ทั่วโลกยังเป็นของ Whatspp และถ้าต้องการโปรแกรมสนทนาแบบ  VoIP Skype ยังเป็นโปรแกรมที่นิยมมากที่สุดอยู่ ยิ่งถ้ามีลูกค้าหรือคู่ค้าในต่างประเทศการใช้โปรแกรม Skype ก็จะช่วยลดค่าใช้จ่ายไปได้มาก ทั้งนี้โปรแกรม Skype สามารถจะติดตั้งได้บนเครื่องพีซี มือถือ หรือ  Tablet และช่วยทำให้เราสนทนากับคู่สนทนาที่มี Skype ด้วยกัน หรือใช้ Skype โทรเข้าเบอร์โทรศัพท์ปกติได้

Screenshot 2014-10-26 07.16.30

ผมเองก็ใช้โปรแกรม Skype  เป็นประจำในการติดต่อกับต่างประเทศ ซึ่งบางครั้งใช้ในการสนทนาร่วมชั่วโมง โดยการซื้่อ Skype Credit ไว้ และใช้เมื่อต้องการโทรศัพท์ไปต่างประเทศ หรือใช้เมื่อเดินทางไปต่างประเทศและต้องการโทรศัพท์ไปตามที่ต่างๆ ทำให้ลดค่าใช้จ่ายของการ Roaming ไปได้มาก

6) Evernote

โปรแกรม Evernote เป็นเสมือนสมุดโน๊ตที่อยู่บน Cloud ช่วยทำให้เราสามารถจดบันทึกต่างๆได้ และแชร์ให้กับคนอื่นๆได้ โปรแกรม Evernote จะมีทั้งเวอร์ชั่นที่อยู่บนเครื่องพีซี มือถือ หรือ Tablet ทำให้เราสามาถที่จะเข้าถึงเอกสารของเราจากเครื่องใดก็ดี นอกจากนี้ยังสามารถใช้บันทึกภาพถ่าย เสียง หรือ Web Clip และเอดสารที่เราจดบันทึกจะเก็บไว้บน Cloud ตามหมวดหมู่ที่เราระบุ ทำให้สะดวกต่อการค้นหา การใช้ Evernote ช่วยให้เราลดความจำเป็นที่จะต้องใช้สมุดโน๊ต และลดการใช้กระดาษในองค์กร โดยไม่ต้องกังวลว่าข้อมูลจะสูญหาย

Screenshot 2014-10-27 18.11.17

เวอร์ชั่นฟรีของ Evernote ให้เราสามารถจดบันทึกข้อมูลใหม่ได้เดือนละ 60 MB และมีเนื้อที่การเก็บข้อมูลไม่จำกัดที่สามารถ sync ได้กลับทุกอุปกรณ์ ซึ่งก็น่าจะเพียงพอต่อการทำงาน แต่ถ้าเราเน้นการบันทึกเสียงหรือมีเอกสารจำนวนมากที่ต้องการบันทึก และต้องการสืบค้นข้อความภายในเอกสารที่บันทึกไว้ เราอาจต้องอัพเกรดมาใช้ Evernote Premium ที่สามารถบันทึกข้อมูลใหม่ได้เดือนละ 1 GB ในราคา 150 บาทต่อเดือน

7) Teamwork

การบริหารโครงการเป็นเรื่องยาก ยิ่งในปัจจุบันเราจะต้องเจอกับทีมงานที่หลากหลาย ทำงานคนละที่ บางกลุ่มอาจเป็น outsource บางครั้งก็ต้องการข้อมูลมาแชร์ร่วมกัน ต้องตามงาน ต้องกำหนดเวลานัดหมาย โปรแกรม Cloud Application ที่ชื่อว่า Teamwork ช่วยให้คำตอบเรื่องนี้ได้ เพราะเป็นโปรแกรมที่ใช้ในการประสานงานโครงการผ่าน Cloud ทีมงานสามารถจะป้อนข้อมูลต่างๆ แชร์ไฟล์ กำหนด Milestone หรือ Task ต่างๆได้

Screenshot 2014-10-27 18.13.29

Teamwork เป็นโปรแกรมที่เล่นผ่าน Browser หรือ App บนมือถือและ Tablet สามารถใช้บริหารโครงการ (Project  Management) ทำให้ทีมงานทำงานร่วมกันได้อย่างมีประสิททธิภาพ สามารถจะดู Gantt Chart กำหนดระยะเวลาต่างๆของโครงการ กำหนด Task ให้ทีมงาน และทุกคนสามารถเข้ามาดูหรือแก้ไขงานต่างๆได้ ทั่งนี้ขึ้นอยู่กับสิทธิที่เจ้าของโครงการจะกำหนด Teamwork ในเวอร์ชั่นที่ให้เราใช้งานได้ฟรีจะสามารถใช้งานได้กับงานสองโครงการและมีพื้นที่เก็บข่อมูล 10 MB แต่ถ้าต้องการใช้งานมากกว่านี้เราสามารถที่จะเลือกใช้เวอร์ชั่น Personal  ในราคา $12  ต่อเดือนและจะใช้บริหารโครงการได้ 5 โครงการและมีพื้นที่เก็บข่อมูล 1 GB หรือเวอร์ชั่น Business1  ในราคา $24  ต่อเดือนและจะใช้บริหารโครงการได้ 15 โครงการและมีพื้นที่เก็บข่อมูล 5 GB

8) ERP

โปรแกรมที่จำเป็นอีกอย่างหนึ่งในการบริหารงานธุรกิจคือโปรแกรมด้าน ERP (Enterprise Resource Planning) ที่ช่วยจัดการทรัพยากรของหน่วยงานได้ แต่โปรแกรม ERP จะมีราคาค่อนข้างสูง และมีโปรแกรมบน Cloud ไม่มากนักโดยเฉพาะสำหรับงานที่เหมาะกับธุรกิจไทย โปรแกรมของบริษัทหนึ่งที่อยากแนะนำคือโปรแกรมของบริษัท EFlowSys

Screenshot 2014-10-27 18.19.56

EFlowSys จะมีโซลูชั่นบน Cloud สำหรับธุรกิจที่หลากหลาย เช่นธุรกิจยานยนต์ ธุรกิจแฟชั่น  ธุรกิจขายส่ง ธุรกิจขายปลีก ธุรกิจไอที รวมถึงโปรแกรมคลังสินค้าบน Cloud โดยข้อมูลจะเก็บอยู่บน Cloud และคิดค่าใช้จ่ายรายได้เริ่มต้นตั้งแต่ 3,875  บาทต่อเดือน

ที่กล่าวมาทั้งหมดนี้คือตัวอย่างของ Cloud Application เด่นสำหรับธุรกิจ ที่ SME สามารถเริ่มใช้ได้ทันที เพื่อการแข่งขันในยุค Digital Economy

ธนชาติ นุ่มนนท์่

IMC Institute

Data Scientist กับเทคโนโลยี Big Data: Hadoop, MapReduce, R และ Mahout

ได้เขียนเรื่อง Data Scientist  ไปหลายครั้ง (เช่น Big Data Analytics กับความต้องการ Data Scientist ตำแหน่งงานที่น่าสนใจในปัจจุบัน)  และก็ได้หยิบยกบทความของ ดร.อธิป อัศวานันท์ เรื่อง “ความเข้าใจที่ผิดๆ เกี่ยวกับ Big Data และ Analytics  ทั้งตอนที่ 1 และ ตอนที่ 2”  มาให้อ่านกัน ก็หวังว่าเราคงเริ่มมีความเข้าใจมากขึ้นระหว่าง  Programmer, BI Analyst และ  Data Scientist  ที่ผมพยายามบอกว่า Data Scentist ต้องมีความรู้ทางด้านคณิตศาสตร์และ Predictive Algorithm

คนที่จะเป็น Data Scientist  จะต้องมีความสามารถอยู่ในสามด้านก็คือ  1)  Programming  กล่าวคือจะต้องมีทักษะการโปรแกรมที่ดีเช่นสามารถเขียนโปรแกรมอย่าง Map/Reduce, R หรือ  Hive  ได้ 2) มีความรู้ด้าน Math และ  Statistics คือจะต้องเข้าใจการรวบรวมและวิเคราะห์ข้อมูล มีความเข้าใจเรื่อง  Algorithm โดยเฉพาะด้าน Predictive Analytics สำหรับทำ Machine Learning ได้ และ 3) ต้องมีความเข้าใจเรื่องธุรกิจที่จะมาวิเคราะห์ข้อมูล เพื่อจะได้ทราบว่ารูปแบบของข้อมูลเป็นอย่างไร หรือจะต้องการข้อมูลใดสำหรับการวิเคราะห์และการคาดการณ์ ซึ่งทักษะเหล่านี้ได้สรุปรวมไว้ในรูปที่ 1

Screenshot 2014-10-20 09.35.54รูปที่  1 ทักษะของ Data Scientist 

จริงๆแล้วการทำ Predictive Analytics ไม่ใช่เรื่องใหม่ แต่การคาดการณ์ต่างๆจะมีความแม่นยำและใก้ลเคียงกับความจริงมากขึ้นถ้ามีข้อมูลจำนวนมากขึ้น ดังนั้นเทคโนโลยี Big Data  จึงทำให้การคาดการณ์ต่างๆแม่นยำขึ้น และการมีข้อมูลขนาดใหญ่จะมีประโยชน์มากยิ่งขึ้นถ้าเราสามารถทำ Predictive Analytics ซึ่งเราจะเห็นได้ว่ากรณีนี้มีความแตกต่างกันกับ  Business Intelligence (BI)

  • BI คือการดู Business Insight เพื่อให้ทราบว่าข้อมูลที่ผ่านมาเป็นอย่างไร โดยนำเสนอในมุมมองต่างๆ ทั้งในรูปแบบของรายงาน กราฟ  หรือ Dashboard
  • Predictive Analytics  คือการคาดการณ์อนาคตโดยใช้โมเดลคณิตศาสตร์ที่ต้องใช้ข้อมูลจำนวนมากและอาจจะมาจากหลายแหล่ง

Screenshot 2014-10-20 09.47.12

รูปที่  2 เครื่องมือและเทคโนโลยีของ Data Science

เทคโนโลยี Big Data ทำให้ Data Scentist มีเครื่องมือที่หลากหลายขึ้น ทั้งในการเก็บข้อมูลเช่น RDBMS ในรูปแบบเดิม หรือ  NoSQL อย่าง MongoDB หรือ  unstructure storage  อย่าง Hadoop HDFS  ทั้งเครื่องมือในการถ่ายโอนข้อมูลอย่าง Sqoop หรือ  Flume และเครื่องมือหรือภาษาในการวิเคราะห์ข้อมูลอย่าง Java, R, Mahout และเนื่องจากข้อมูลในปัจจุบันส่วนใหญ่เป็น  unstructure data  ก็เลยทำให้ Hadoop กลายเป็นเครื่องมือที่น่าสนใจที่สุดของ Big Data เพราะนอกจากสามารถที่จะเก็บข้อมูลขนาดใหญ่ได้แล้ว ยังมีเครื่องมือที่ช่วยในการวิเคราะห์ข้อมูลที่หลากหลาย

Screenshot 2014-10-20 09.53.48

รูปที่  3 หน้าที่ของ Data Science

สุดท้ายเพื่อให้เข้าใจว่า Data Scientist ทำอะไรจากเทคโนโลยีต่างๆที่มีอยู่ ลองพิจารณาดูรูปที่ 3 จะเห็นว่าจะมีการกล่าวถึงเทคโนโลยีต่างๆ เช่นเครื่องมือในการรวบรวมข้อมูลที่ทำ ETL เครื่องมือในการเก็บข้อมูลอย่าง Hadoop เครื่องมือในการวิเคราะห์ข้อมูลอย่าง R, Hive, Pig, Java, Mahout  เครื่องมือในการแสดงผลอย่าง Dashboard, Web App และ เครื่องมือในการพยากรณ์ข้อมูลที่ทำ Machine Learning  จากรูปจะเห็นได้ว่าบทบาทของ Data Scientist จะคาบเกี่ยวกับบทบาทของ Data Architecture/Management และ Analytics โดย Data Sceintist จะต้องใช้เครื่องมือต่างๆทั้ง Hadoop, R, MapReduce หรือ Mahout  ในการวืเคราะห์ข้อมูล รวมถึงมีการใช้  Algorithm สำหรับ Machine Learning

  • R เป็๋นภาษาที่สามารถใช้ในการวิเคราะห์ข้อมูลได้
  • Mahout เป็นเครื่องมือที่ใช้ในการวิเคราะห์  Large Scale Data  บน  Hadoop  โดย Mahout จะมี Library  สำหรับ Predictive Analytics สามด้านคือ Recommender, Clustering และ  Classification

การพัฒนาหรือหา Data Scientist คงไม่ใช่ง่าย และไม่สามารถทำได้โดยระยะเวลาอันสั้น จากข้อมูลการสำรวจส่วนใหญ่ก็จะต้องเป็นที่มีพื้นฐานทางคณิตศาสตร์อย่างดี โลกของ Big Data กำลังมา ตรงนี้น่าจะเป็นโอกาสอันดีของนักคณิตศาสตร์ และจำเป็นอย่างยิ่งที่บ้านเราจะต้องเร่งพัฒนาคนทางด้านนี้ แต่อย่ามองว่าเป็นเรื่องง่าย เพราะการเรียนคณิตศาสตร์ไม่ได้ทำกันได้เพียงสัปดาห์เดียว การจะเรียนปริญญาเอกก็ต้องใช้เวลาเป็นปีๆ ดังนั้นการที่จะสร้าง Data Scentist ทีดีก็ต้องบ่มเพราะเป็นปีๆเช่นกัน

ธนชาติ นุ่มนนท์

IMC Institute

Hadoop Ecosystem สำหรับการพัฒนา Big Data

เมื่อพูดถึง Big Data นอกเหนือจากข้อมูลจะมีขนาดใหญ่ขึ้นแล้ว รูปแบบของข้อมูลในอนาคตส่วนใหญ่ก็จะเป็น Unstructure และข้อมูลก็จะเพิ่มขึ้นอย่างรวดเร็ว ตามที่เรานิยามคุณลักษณะของ Big Data ด้วย 3V: Volume, Variety และ Velocity ดังนั้นเครื่องมือในการที่จะทำ Big Data ก็จะต้องเปลี่ยนไปจากที่เราเคยใช้ RDBMS ที่เป็น SQL คนก็เริ่มต้องหาเครื่องมืออื่นๆที่จะจัดการกับข้อมูลจำนวนมากได้อย่าง NewSQL เช่น MySQL Cluster, Amazon RDS หรือ  Azure SQL หรือเครื่องมือที่เป็น NoSQL อย่าง MongoDB หรือ Cassandra และเครื่องมืออย่าง Hadoop ที่ใช้สำหรับจัดการ  Unstructure Data ที่เป็น PetaByte

Hadoop เป็นหนึ่งในเครื่องมือ Big Data ที่ได้รับความสนใจอย่างกว้างเพราะสามารถที่จะจัดการข้อมูล Unstructure ขนาดใหญ่ได้ เช่นข้อมูลที่เป็น Text File, XML หรือ  JSON ผมเองเจอไฟล์ที่เป็น Web Crawl อยู่ในรูปแบบของไฟล์ Web ARChive (WARC) ซึ่งเป็น Text ขนาดใหญ่ขนาดหลายร้อย TeraByte ซึ่งแน่นอนการจัดการข้อมูลแบบนี้ต้องหาเครื่องมือที่เหมาะสม และ Hadoop ก็คือเครื่องมือที่ผมเลือกใช้

Hadoop Project

Hadoop เป็น Open source Project ของ Apache สำหรับการเก็บและบริหารข้อมูลขนาดใหญ่ Hadoop เขียนด้วยโปรแกรมภาษาจาวา มีความสามารถในการทำ Fault Tourarent เพราะจะเก็บข้อมูลซ้ำกันในหลายๆที่ และเป็นระบบที่เป็น Horizontal Scale ที่รันบนเครื่อง commodity server จำนวนมาก Hadoop Project เริ่มต้นโดย Doug Cutting และ Mike Cafarella ที่เป็นทีมงานของบริษัท Yahoo ซึ่งต่อมาก็มีบริษัทอื่นๆนำไปใช้กันอย่างมากทั้ง eBay, Facebook และ Amazon รวมถึงมีบริษัทหลายๆรายที่นำมา Hadoop มาทำ Commercial Distribution อาทิเช่น Cloudera, MapR, IBM Infoshphere BigInsight, Hortonwork หรือ Amazon Elastic Map Reduce

Screenshot 2014-10-18 11.50.04

รูปที่  1: Hadoop Environment [Source: Hadoop in Practice; Alex Holmes]

Hadoop เวอร์ชั่นแรกจะมีองค์ประกอบหลักสองส่วนคือ

  • HDFS (Hadoop Distribution File System) ที่ทำหน้าที่เป็นส่วนเก็บข้อมูลซึ่งจะเก็บข้อมูลขนาดใหญ่ที่จะแบ่งเป็นไฟล์ย่อยขนาดใหญ่เก็บลงใน Data Node จำนวนมาก โดยจะมี Master Node ที่ทำหน้าที่ระบุตำแหน่งของข้อมูลที่เก็บใน Data node
  • Map/Reduce จะเป็นส่วนประมวลผลข้อมูล ที่นักพัฒนาสามารถเขียนโปรแกรมโดยใช้ภาษาจาวามาวิเคราะห์ข้อมูลในรูปแบบของฟังก์ชันการ Map และ Reduce ได้ โดยระบบก็จะกระจาย Task ไปรันแบบ Parallel บนเครื่องหลายๆเครื่อง

ข้อมูลที่เก็บอยู่ใน HDFS จะไม่ใช่รูปแบบ Table อย่างที่เก็บในฐานข้อมูล RDBMS จะเหมาะกับการเก็บข้อมูลขนาดใหญ่มากที่ไม่ต้องมีการเปลี่ยนแปลง และไม่สามารถอ่านหรือเขียนข้อมูลแบบ Random Access ได้ ส่วนการประมวลผลแบบ Map/Reduce ก็ไม่ใช่ realtime Online แบบ SQL ของ RDBMS แต่จะเป็นแบบ Batch Offilne ใช้เวลาพอสมควรขึ้นอยู่กับขนาดข้อมูล

สถาปัตยกรรมฮาร์ดแวร์ของระบบ Hadoop จะประกอบด้วยเครื่อง Server จำนวนมาก โดยจะมีเครื่องหนึ่งทำหน้าที่เป็น Master และจะมีเครื่องลูกอีกจำนวนมากทำหน้าที่เป็น Slave โดยปกติ Hadoop จะกำหนดให้ข้อมูลที่เก็บในเครื่อง Slave มีการเก็บข้อมูลซ้ำกันสามแห่ง ดังนั้นเครื่อง Slave ควรจะมีอย่างน้อยสามเครื่อง ส่วนเครื่อง Master ก็จะทำหน้าที่หลักในการระบุตำแหน่งของข้อมูลและ Task ที่กระจายในการประมวลผลของ Map/Reduce ดังนั้นเครื่อง Master จึงมีความสำคัญอย่างมาก และต้องมีเครื่อง Secondary Master ในการที่จะสำรองไว้ในกรณีเครื่อง Master ตายไป ดังนั้นระบบ Hadoop โดยทั่วไปจะเริ่มต้นที่เครื่อง Server 5 เครื่อง สำหรับ Master หนึ่งเครื่อง, Secondary Master หนึ่งเครื่อง และ Slave สามเครื่อง โดยหากต้องการเก็บข้อมูลมากขึ้นหรือต้องการประมวลผลข้อมูลให้เร็วขึ้นก็ต้องเพิ่มจำนวนเครื่อง Slave ให้มากขึ้น ทั้งนี้ขนาดของข้อมูลที่เก็บได้ก็จะขึ้นอยู่กับขนาดความจุข้อมูลของเครื่อง Slave รวมกันหารด้วยจำนวนข้อมูลที่ต้องการเก็บซ้ำ (default คือ 3) ซึ่งการเก็บข้อมูลจำนวนเป็น Petabyte ได้ก็ต้องมีเครื่องเป็นจำนวนมากกว่าร้อยเครื่อง โดยปัจจุบัน Yahoo เป็น site ที่มี Hadoop Cluster ใหญ่ที่สุด โดยมีเครื่องจำนวนถึง 40,000 เครื่อง

Screenshot 2014-10-18 11.54.53

รูปที่  2: Hadoop Architecture [Source: Hadoop in Practice; Alex Holmes]

Hadoop Ecosystem

ระบบ Hadoop เองจะมีองค์ประกอบหลักอยู่แค่สองส่วนคือ HDFS และ Map/Reduce ซึ่งค่อนข้างจะไม่สะดวกกับผู้ใช้งานที่มีความต้องการอื่นๆเช่น  การประมวลผลโดยใช้ภาษา SQL การเขียนหรืออ่านข้อมูลแบบ Random access หรือการถ่ายโอนข้อมูลจากที่อื่นๆ จึงมีการพัฒนาโปรเจ็คอื่นๆที่มาทำงานร่วมกับ Hadoop เพื่อให้ได้ประสิทธิภาพดียิ่งขึ้น ดังแสดงตัวอย่างในรูปที่ 3 ซึ่งมีเครื่องมือที่สำคัญดังนี้

Screenshot 2014-10-18 12.00.24

รูปที่  3: Hadoop Ecosystem [Source: Big Data Analytics with Hadoop: Phillippe Julio]

  • Hive เป็นเครื่องมือสำหรับผู้ต้องการสืบค้น (Query) ข้อมูลที่เก็บใน HDFS ด้วยภาษาลักษณะ SQL แทนที่จะต้องมาเขียนโปรแกรม Map/Reduce โดย Hive จะทำหน้าที่ในการแปล SQL like ให้มาเป็น Map/Reduce แล้วก็ทำการรันแบบ Batch
  • Pig เป็นเครื่องมือคล้ายๆกับ Hive ที่ช่วยให้ประมวลผลข้อมูลโดยไม่ต้องเขียนโปรแกรม Map/Reduce ซึ่ง Pig จะใช้โปรแกรมภาษา script ง่ายๆที่เรียกว่า Pig Latin แทน โดย Pigเหมาะกับการทำ ETL สำหรับการแปลงข้อมูลในรูปแบบต่างๆเช่น JSON
  • Sqoop เป็นเครื่องมือในการถ่ายโอนข้อมูลระหว่างฐานข้อมูลที่อยู่รูปแบบ Table บน RDBMS อย่าง SQL server, Oracle หรือ MySQL กับข้อมูลบน HDFS ของ Hadoop
  • Flume เป็นเครื่องมือในการดึงข้อมูลจากระบบอื่นๆแบบ Realtime เข้าสู่ HDFS เช่นการดึง Log จาก Web Server การดึงข้อมูลเหล่านี้จะต้องมีการติดตั้ง Agent ที่เครื่อง Server
  • HBase เป็นเครื่องมือที่จะทำให้ Hadoop สามารถอ่านและเขียนข้อมูลแบบ Realtime Random Access ได้โดยจะทำให้เป็น BigTable ที่เก็บข้อมูลได้ไม่จำกัด row หรือ column ซึ่ง HBase ก็จะเป็นเสมือนการทำให้ Hadoop เป็น NoSQL Database
  • Oozie เป็นเครื่องมือในการทำ Workflow จะช่วยให้เราเอาคำสั่งประมวลผลต่างๆของระบบ Hadoop เช่น Map/Reduce, Hive หรือ Pig มาเชื่อมต่อกันในรูปของ Workflow ได้
  • Hue ย่อมาจากคำว่า Hadoop User Experience เป็นเครื่องมือช่วยทำ User interface ของ Hadoop ให้ใช้งานได้ง่ายขึ้นกว่าการต้องใช้ command line
  • Mahout เป็นเครื่องมือของ Data Scientist ที่ต้องการทำPredictive Analytics ข้อมูลบน Hadoop โดยใช้ภาษาจาวา ทั้งนี้ Mahout สามารถใช้ Algorithm ที่เป็น Recommender, Classification และ Clustering ได้

Hadoop 2.0

Hadoop เวอร์ชั่นแรกมีข้อจำกัดหลายประการอาทิเช่น ระบบการสำรองของ Secondary Master เป็นแบบ Passive และไม่สามารถทำ Multiple Master ได้จึงจำกัดเครื่อง Slave ไว้ไม่เกิน 4,000 เครื่อง และขัอสำคัญการประมวลผลต้องใช้ Map/Reduce ที่เป็นแบบ Batch ดังนั้นจึงมีการพัฒนา Hadoop 2.0 ที่จะลดข้อจำกัดต่างๆ  Hadoop เวอร์ชั่นนี้จะมีสถาปัตยกรรมดังรูปที่ 4 โดยมีการนำ Data Opeating System ที่เรียกว่า YARN (Yet Another Resource Negotiator) เข้ามา

Screenshot 2014-10-18 12.06.08

รูปที่  4 : Hadoop 2.0

เราจะเห็นได้ว่าการมี YARN ทำให้เรามีวิธีการประมวลผลที่หลากหลายขึ้น ทั้งแบบ Batch อย่างเดิมที่ใช้ Map/Reduce หรือผ่าน Hive และก็เป็น Realtime ที่ใช้ Streaming หรือ MPI รวมถึงสามารถขยายจำนวนเครื่อง Slave ได้จำนวนมาก  ในปัจจุบันมี่ Hadoop Distribution หลายตัวรวมทั้งที่เป็นผู้ให้บริการบน Cloud แบบ Hadoop as a Service ที่ใช้ Hadoop 2.0 จึงทำให้โอกาสการใช้งานของ Hadoop ในอนาคตจะขยายตัวมากขึ้นเรื่อยๆ

ธนชาติ นุ่มนนท์

IMC Institute

เศรษฐกิจใหม่ว่าด้วยเรื่องดิจิทัล

ตอนผมเด็กๆกิจกรรมหนึ่งที่ผมชอบเล่นกับพี่ชายในช่วงวันปีใหม่ของทุกๆปีคือการติดสคส.ปีใหม่จำนวนมากที่แม่และพ่อได้รับติดโชว์รอบบ้าน มาวันนี้คุณแม่ผมจะบ่นว่าหาซื้อการ์ดปีใหม่ยากและไม่ค่อยได้รับเท่าไรแล้วแล้วคนที่เขาเคยมีอาชีพเหล่านี้ไม่ว่าคนทำสคส. คนส่งจดหมายต่อไปเขาไม่แย่หรอ

สมัยเรียนหนังสือที่มหาวิทยาลัยขอนแก่น เมื่อมีน้องใหม่เข้ามารายงานตัว เราจะเห็นร้านถ่ายรูปมารอรับถ่ายรูปนักศึกษาใหม่เต็มไปหมด รายได้ดีมากร้านถ่ายรูปร้านรับอัดภาพคนเนื่องแน่นอยู่เสมอ เราต้องขี่มอเตอร์ไซค์เข้าไปในเมืองรอรับรูป รอคิวเป็นเวลานานกว่าจะได้ เป็นธุรกิจที่น่าอิจฉาและน่าทำมาก แต่เมื่อวันก่อนผมกลับไปบริเวณเดิมที่เคยมีร้านถ่ายรูปหลายร้านในจังหวัด เหลือเพียงรายเดียวและไม่มีคนมากนัก

ยังไม่ต้องพูดถึงกิจการอื่นๆอีกมากมายที่กำลังเปลี่ยนไป ร้านขายหนังสือที่เคยเป็นเอเยนต์หนังสือรายใหญ่วันนี้เงียบเหงามาก ร้าน Travel Agent ร้าน Xerox แถวมหาวิทยาลัยที่เคยเฟื่องฟู พวกนี้หายไปหมดเพราะการเปลี่ยนแปลงสู่เทคโนโลยีดิจิทัล

โลกกำลังเปลี่ยนไปก้าวเข้าสู่เศรษฐกิจใหม่ เราหนีไม่พ้นเพราะดิจิทัลกำลังเข้ามา เราจะต้องมาคิดว่าเราจะอยู่รอดกับการเปลี่ยนแปลงอย่างไร

เมื่อสัปดาห์ที่แล้วผมเห็นข่าวตัวแทนจากธนาคารโลกในประเทศไทยกล่าวถึงตัวเลขอัตราการเจริญเติบโตทางเศรษฐกิจของประเทศว่าประเทศไทยเราบ๊วยสุดในอาเซียน บางท่านก็อาจมองไปว่าเป็นเพราะปัญหาทางการเมืองเรา ผมคิดว่านั้นก็น่าจะเป็นส่วนหนึ่ง แต่ผมคิดว่าอีกส่วนหนึ่งที่เรากำลังลำบากในการที่จะเห็นเศรษฐกิจของประเทศเจริญเติบโตแบบเดิมๆลำบากก็เพราะเราติดกับดักดิจิทัล เรากำลังตามเศรษฐกิจใหม่ที่เราอาจใช้คำพูดว่า Digital Economy ไม่ทัน

Screenshot 2014-10-13 23.52.54

โลกกำลังเปลี่ยนแปลง แต่เรากำลังเดินอยู่ในวิถีเศรษฐกิจแบบเดิม เราเห็นการค้า E-Commerce กำลังเข้ามาแต่เราคิดว่าคนไทยไม่พร้อม เราเห็นการเปลี่ยนแปลงของ Internet Banking แต่เรากลับคิดว่าการทำธุรกรรมออนไลน์มีความเสี่ยง เราเห็นการทำ Booking Online แต่เรากลับคิดว่าเป็นเรื่องของคนต่างชาติหรือมองเป็นเรื่องไฮเทค เราเห็นหนังสือพิมพ์แบบอีบุ๊คเข้ามาแต่เราคิดว่าคนยังชอบอ่านแบบกระดาษ ก็เพราะเราคิดช้าเราคิดแบบเดิม ทำให้หลายๆอาชีพกำลังลำบากกำลังแข่งขันในอนาคตลำบาก

ทันทีที่ผมเห็นข่าวว่ารัฐบาลกำลังทำ Digital Economy ผมดีใจมากครับคิดว่าประเทศเรากำลังก้าวไปสู่เศรษฐกิจใหม่ นึกถึงโครงการใหญ่ๆอย่าง Eastern Sea Board สมัยพลเอกเปรมเป็นนายกฯที่ลงทุนเป็นหมื่นล้านแล้วช่วยทำให้เศรษฐกิจโตขึ้นอย่างมาก ไม่ต้องพูดถึงความเจริญที่เข้ามายังจังหวัดแถวนั้น ทำให้เราเห็นแถวชลบุรี ระยอง โตขึ้นอย่างก้าวกระโดด

การทำ Digital Economy คือการสร้างเศรษฐกิจแบบใหม่ที่จะทำให้ประเทศไทยแข่งขันได้แบบก้าวกระโดด ผมอยากเห็นว่าถ้าเปลี่ยนตรงนี้มันจะต่างจากเศรษฐกิจแบบเก่าอย่างไร เราจะมีงานใหม่เกิดขึ้นในประเทศกี่ล้านตำแหน่ง คนในภาคเกษตรกรรม ภาคท่องเที่ยว หรือภาคอุตสาหกรรมอื่นๆจะได้ประโยชน์อย่างไร ตัวชี้วัดก็ควรจะเป็นว่า GDP โดยรวมของประเทศจะโตขึ้นกี่เปอร์เซ็นต์ใน 5 ปี เช่นขึ้นไปถึง 20-30% ไหม มันจะโตแบบก้าวกระโดดอย่างไร แต่ไม่ใช่ตัวชี้วัดของกระทรวงไอซีทีครับต้องเป็นตัวชีวัดของรัฐบาล

ดังนั้นเศรษฐกิจดิจิทัลไม่ใช่แค่เรื่องของไอที ไม่ใช่มาดูว่าเราจะทำอะไรกับอุตสาหกรรมไอทีหรือจะกระตุ้นอุตสาหกรรมไอทีของประเทศอย่างไร ตอนนี้เปรียบเสมือนว่าประเทศคือบริษัทแห่งหนึ่งที่กำลังประสบปัญหาว่าอัตราการเจริญเติบโตของธุรกิจไม่ดีพอ เราต้องมีการเปลี่ยนแปลงครั้งสำคัญอาจต้องหาสินค้าหรือบริการใหม่ หรือข้อมูลสำหรับวิธีการขายแบบใหม่ๆ บริษัทนี้คงไม่ใช่แค่มามองว่าจะปฎิรูปแผนกไอทีอย่างไร ไม่ได้มาวัดว่าจะลงทุนด้านไอทีเป็นอัตราส่วนเท่าไร แต่มันควรเป็นการที่ฝ่ายต่างๆในบริษัทจะมาแนวทางร่วมกันว่าจะใช้ไอทีอย่างไรเพื่อให้บริษัทเจริญเติบโตอย่างก้าวกระโดด

เช่นเดียวกันครับ บริบทของภาครัฐในการทำ Digital Economy ต้องไม่ใช่แค่เรื่องของกระทรวงไอซีที ไม่ใช่แค่เรื่องของการปรับโครงสร้างกระทรวงไอซีที แต่มันควรเป็นเรื่องของทุกกระทรวงโดยเฉพาะกระทรวงทางด้านเศรษฐกิจว่าเราจะทำอย่างไรโดยใช้ไอทีเพื่อให้เศรษฐกิจโตแบบก้าวกระโดด อะไรคือยุทธศาสตร์สำคัญในอนาคต ท่องเที่ยวหรือเกษตร ไอซีทีจะเข้ามาช่วยได้อย่างไร คิดอย่างไรถึงจะต่าง ตอนนี้ประเทศเรากำลังไล่ตามเขาเรื่องดิจิทัล ทำตามเขาเรื่อง E-Service อย่างมากก็ไล่เขาทัน ถ้าจะชนะเขาต้องหาวิธีคิดต่าง ข้อสำคัญเรากำลังทำ New Economy ต้องช่วยกันทุกฝ่ายว่าจะปฎิรูปประเทศให้เศรษฐกิจเราโตขึ้นอย่างไร ไม่ใช่มาคิดว่าอุตสาหกรรมไอซีทีในประเทศจะโตขึ้นกี่เปอร์เซนต์ อันนั้นมันเป็นผลพลอยได้ เพราะถ้าเศรษฐกิจของประเทศโตจากการใช้ไอซีที ยังไงอุตสาหกรรมไอซีทีก็ต้องโตขึ้นอย่างมาก

ธนชาติ นุ่มนนท์

Online Courseware และหนังสือ Big Data ที่น่าอ่าน

ผมเริ่มสนใจเรื่อง Big Data มาได้ซักพักหนึ่ง และโชคดีที่มีโอกาสได้อ่านหนังสือหลายเล่ม เรียนรู้ทั้งจาก  Online Courseware ต่างๆทั้งที่ฟรีและเสียเงิน จริงๆท่านหนึ่งที่ต้องขอบคุณอย่างมากคือ คุณดนัยรัฐ ธนบดีธรรมจารี จาก Oracle ที่ได้มาช่วยสอนและแนะนำการติดตั้ง Hadoop ทำให้ผมได้เริ่มลงมือปฎิบัติในเรื่องของ Big Data มากขึ้นไม่ใช่แค่อ่านแต่หนังสือ ซึ่งก็ได้ศึกษา Hadoop และ Big Data มาอย่างต่อเนื่อง ทั้งการใช้เครื่องมือต่าง การใช้ Big Data as a Service บน Cloud เช่น Amazon Elastic Map Reduce การเรียนรู้ภาษาหรือ Tool ต่างๆเช่น  Hive, Pig, HBase, Hue หรือ Mahout รวมถึงการอ่านหนังสืออีกหลายสิบเล่ม ลองมาดูกันครับว่ามีแหล่งข้อมูลไหนบ้างครับสำหรับการศึกษา Big Data และ  Hadoop

Online Courseware

มีเว็บไซต์ดีๆหลายอันที่สอนเรื่อง  Big Data โดยเฉพาะเรื่องของ Hadoop อาทิเช่น

  • www.bigdatauniversity.com : ซึ่งเป็นเว็บไซต์การเรียนรู้ Big Data  ของ IBM จะมี Courseware  ดีๆอยู่หลายหลักสูตรที่มีทั้ง Slide  เสียงบรรยาย และ Hand-on Lab  อาทิเช่น Big Data Fundamentals, Hadoop Fundamentals หรือ Course ที่เรียนรู้เครื่องมือบางอย่างเช่น Moving Data into Hadoop แต่อย่างไรก็ตาม Hand-on Lab ใน courseware  เหล่านี้จะผูกอยู่กับ IBM Infosphere BigInsight
  • Cloudera Online Training: Cloudera เป็นบริษัทที่เด่นที่สุดบริษัทหนึ่งในการทำ Hadoop Distribution ส่วนหนึ่งก็เป็นเพราะว่าคนที่เริ่มคิดโปรเจ็ค Hadoop อยู่ที่บริษัทนี้ Cloudera จะมี Online Courseware ดีๆหลายตัว อาทิเช่น Introduction to Hadoop and MapReduce นอกจากนี้ยังมี Hand-on Training  ซึ่งใช้เครื่องมือของ Cloudera Live ที่อยู่บน Cloud ให้สามารถฝึกและเรียนรู้การใช้เครื่องมือต่างๆอย่าง Pig หรือ Hive ได้
  • Simplilearn: ในปัจจุบันมี Courseware ที่ผู้เรียนสามารถจ่ายเงินเรียน Online ได้หลายๆหลักสูตร ผมเองเคยเรียนหลักสูตรของ Simplilearn ที่ค่าเรียนประมาณร้อยกว่าเหรียญ เนื้อหาก็ดีพอควรสำหรับผู้สนใจเรีิ่มต่้นการทำ Big Data โดยใช้  Hadoop พร้อมทั้งมีแบบฝึกหัดให้ทำ

Screenshot 2014-10-12 07.03.06

หนังสือด้าน Big Data

มีหนังสือหลายเล่มมากที่เกี่ยวข้องกับ Big Data ที่ผมมีโอกาสอ่าน ที่ได้อ่านหลายเล่มเป็นเพราะผมเป็นสมาชิก Safari Book Online ทำให้สามารถค้นหนังสือมาอ่านได้จำนวนมาก แต่บางเล่มก็ซื้อมาอ่านใน Kindle หนังสือต่างๆที่ผมอยากแนะนำมีดังนี้

Screenshot 2014-10-12 16.24.31

Big Data: Understanding How Data Powers Big Business หนังสือเล่มนี้เหมาะกับผู้บริหารที่ต้องการทำความเข้าใจเกี่ยวกับ Big Data ซึ่งไม่ได้ต้องการลงด้านเทคนิคมากนัก หนังสือเล่มนี้จะให้คำตอบความหมายของ Big Data ผลกระทบต่อธุรกิจ การวางแผนกลยุทธ์ Big Data สำหรับองค์กร การกำหนดทีมงาน และการวางแผนต่างๆ นับเป็นหนังสือที่ดีมากสำหรับผู้บริหารที่ต้องการทำความเข้าใจและวางแผน Big Data ขององค์กร

Big Data Analytics: Turning Big Data into Big Money: เป็นหนังสืออีกเล่มสำหรับผู้บริหาร โดยจะกล่าวถึงความหมายของ Big Data พูดถึง Business Case การสร้าง  Big Data Team การหา Big Data Source  และอื่นๆ ผมว่าหนังสือเล่มนี้อ่านง่ายกว่าเล่มแรก แต่เล่มแรกจะมีทฤษฎีและ template ต่างๆ ให้เรานำไปใช้ได้ดีกว่า

Planning for Big Data: หนังสืออีกเล่มหนึ่งที่เป็นการกล่าวถึง Big Data ในลักษณะ High Level หนังสือออกมาเมื่อปี 2012 ซึ่งน่าจะอิงกับ Microsoft พอสมควร แต่ข้อดีคือเป็นหนังสือที่สามารถหาอ่านได้ฟรีทาง Amazon Kindle  ในหนังสือจะพูดถึงความหมายของ Big Data, Apache Hadoop, Big Data Market Survey, Big Data in the Cloud และจะมีบทหนึ่งพูดถึง Microsoft’s Plan for Big Data

Hadoop Real-World Solutions Cookbook: หนังสือเล่มนี้เหมาะสำหรับนักไอทีที่ต้องการเรียน Hadoop และโปรแกรมอื่นๆที่เกี่ยวข้องของ Hadoop จะมีบทที่แนะนำ Hadoop และองค์ประกอบอื่นๆเช่น HDFS, MapReduce, Hive และ Pig หนังสือเล่มนี้จะมีเนื้อหาที่ดีในการแนะนำการเขียนโปรแกรม MapReduce โดยใช้ภาษา Java และมีตัวอย่างทีดีในการเขียนโปรแกรมโดยเฉพาะในบทที่  6 ที่ว่าด้วยเรื่อง Big Data Analysis

Hadoop in Practice: หนังสือด้่านเทคนิคอีกเล่มหนึ่งที่ค่อนข้างจะละเอียด และอาจจะอ่านยากกว่าเล่มก่อนหน้านี้ เหมาะสำหรับ Programmer ที่เข้าใจ command line ของ Linux เนื้อหาข้างในละเอียดมาก จุดเด่นของหนังสือเล่มนี้คือส่วนที่ 4 ที่กล่าวถึง Data Science และจะมีบทที่พูดถึง Algorithm ตัวอย่างการใช้ R และ Mahout

Hadoop: The Definitive Guide: หนังสืออีกเล่มที่แนะนำ Hadoop หนังสือเล่มนี้จะแนะนำซอฟต์แวร์ต่างๆของ Hadoop ไว้ได้ครอบคลุมทั้งหมดตั้งแต่ Hive, Pig, Sqoop, HBase หรือ Zookeeper รวมถึงพูดถึงการติดตั้ง Hadoop Cluster เล่มนี้เหมาะสำหรับ Administor ที่ต้องการติดตั้งและเข้าใจ Hadoop แต่ก็มีการกล่าวถึงการโปรแกรม MapReduce อยู่หลายบทเหมือนกัน

Programming Hive: หนังสือเล่มนี้สำหรับผู้สนใจจะใช้คำสั่งคล้าย SQL บน Hadoop เพื่อที่จะสืบค้นข้อมูล Unstructure โดยใช้โปรแกรม  Hive  หนังสือเหมาะกับผู้ที่สนใจเล่น Hive อย่างจริงจัง เพราะมีหลายละเอียดค่อนข้างมากตั้งแต่ Data Types การใช้ภาษา  Hive QL ผมเองได้แค่อ่านผ่านๆเพราะไม่ได้ต้องการเจาะลึกการใช้ Hive

Mahout in Action: หนังสือนี้เหมาะกับ Data Scientist ที่ต้องการพัฒนา Scalable Machine Learning โดยใช้ Mahout ที่รันอยู่บน Hadoop หนังสือเล่มนี้จะอ่านยากมากเพราะจะเต็มไปด้วยสูตรคณิตศาสตร์ต่างๆและโปรแกรมภาษาจาวาโดยใช้ Mahout หนังสือจะกล่าวถึงการทำ Preditive Analysis สามเรื่องที่ Mahout สามารถทำได้คือ Recommendation, Classification และ Clustering

ธนชาติ นุ่มนนท์

IMC Institute

Screenshot 2014-10-05 20.34.27