เมื่อตอนที่แล้วผมเขียนถึงประเภทงานด้านต่างๆที่เกี่ยวข้องกับการวิเคราะห์และบริหารจัดการข้อมูล (งาน Data Engineer มีความสำคัญมากพอๆกับงานของ Data Scientist (ตอนที่ 1)) และชี้ให้เห็นว่างานของวิศวกรข้อมูล (Data emgineer) มีความสำคัญพอๆกับงานของนักวิทยาศาสตร์ข้อมูล (Data Scientist) และบางครั้งอาจมีความสำคัญมากกว่าเสียด้วยซ้ำไป
สำหรับเหตุผลต่างๆขออธิบายดังนี้
- การทำงานด้านข้อมูลจะเริ่มต้นจากกระบวนการทางวิศวกรรมข้อมูล ซึ่งเป็นหน้าที่ของ Data engineer ที่จะต้องนำเข้าข้อมูล จัดการแปลงข้อมูล ปรับข้อมูลให้มีความถูกต้อง รวมถึงการตัดข้อมูลที่ผิดพลาดออก ก่อนที่จะส่งงานนี้ไปให้ Data Scientist หรือ Data analyst ไปทำการพยากรณ์หรือวิเคราะห์ข้อมูลต่อ ดังนั้นถ้าวิศวกรข้อมูลส่งข้อมูลมาผิดพลาด ไม่สมบูรณ์ ก็จะมีผลทำให้การวิเคราะห์หรือการพยากรณ์ข้อมูลต่างๆผิดพลาดไปด้วย ดังที่กล่าวว่า garbage in garbage out
- เมื่อวิเคราะห์ถึง Data analytic life cycle ตามมาตรฐานของ CRISP-DM(Cross-industry standard process for data mining) จะเห็นได้ว่ามีอยู่ 6 ขั้นตอน เริ่มจาก การทำความเข้าใจธุรกิจ (Business Understanding) ไปจนถึงการนำไปใช้งาน (deployment) ซึ่งเราจะพบว่างานส่วนใหญ่เกือบ 70-80% จะใช้เวลาไปกับขั้นตอนของ Data preparation กล่าวคือการเตรียมข้อมูลที่เป็นงานของ Data engineer ขณะที่งานของ Data scientist อย่างขั้นตอนการสร้างแบบจำลอง (Modeling) และ การประเมินผล (Evaluation) จะใช้เวลาไม่นานนัก
- งานการวิเคราะห์ข้อมูลขนาดใหญ่ (Big data)ที่พบในทางปฎิบัติจริงโดยมากจะเป็นงานการวิเคราะห์ข้อมูลทั่วไปที่ใช้หลักการของ Business Intelligence (BI) โดยเป็นหน้าที่ของนักวิเคราะห์ด้านข้อมูล (Data analyst) แล้วอาจนำผลไปทำ Dashboard โดยใช้เครื่องมือด้าน Visualization ซึ่งงานเหล่านั้นพบมากกว่างานด้านการพยากรณ์ข้อมูล (Predictive analytic) ที่ต้องทำโดย Data scientist ด้วยซ้ำไป เพราะหน่วยงานต่างๆจะเริ่มต้นจากการทำ BI ก่อน
- งานด้านการพยากรณ์ข้อมูล (Predictive analytic) ที่ทำโดยมากมักจะเป็นงานในการพัฒนาโมเดลพื้นฐานที่มีอยู่ทั่วไป และอาจต้องการนักวิทยาศาสตร์ข้อมูลที่เน้นการพัฒนาโปรแกรม หรือ Citizen Data Scientist ในการทำมากกว่าต้องการ นักวิทยาศาสตร์ข้อมูลขั้นสูง ซึ่งเราจะพบว่าสามารถนำงานเหล่านั้นให้ Data engineer มาศึกษาการเขียนโปรแกรมการพยากรณ์ข้อมูลได้ และบางครั้งอาจจะง่ายกว่าการที่จะเอานักวิทยาศาสตร์ข้อมูลขั้นสูงมาฝึกเป็น Data engineer เสียด้วยซ้ำไป กล่าวคือเราอาจให้ Data engineer มาทำหน้าที่ Data scientist ได้ในงานที่ไม่ซับซ้อน
- ข้อมูลจาก The 2021 Data Science Interview Report ระบุว่าตำแหน่งงานทางด้าน Data scientist เริ่มมีการเติบโตน้อยลงจากที่เคยเพิ่มปีละ 80% เหลือเพียงโตขึ้น 10% จากปี 2020 เมื่อเทียบกับปี 2019 ขณะที่งานด้าน Data engineer กลับโตขึ้นถึง 40% นอกจากนี้ยังมีการศึกษาโดย Mihail Eric ที่ลงบทความใน https://www.kdnuggets.com/ พบว่างานทางด้าน Data engineer มีความต้องการสูงกว่างานด้าน Data science ถึง 70%
- สุดท้ายมีบทความเรื่อง Data Engineer VS Data Scientist ที่รายงานการสำรวจเงินเดือนเฉลี่ยระหว่าง Data engineer กับ Data Scientist ในปี 2018 พบว่าเงินเดือนของ Data engineer เฉลี่ยอยู่ที่ $151K ต่อปี ส่วน Data Scientist $139K ต่อปี


ทั้งหมดนี้คือสิ่งทีอยากชี้ให้เห็นว่างานของวิศวกรข้อมูล (Data engineer) มีความสำคัญมากและอาจเป็นหนึ่งในอาชีพที่น่าสนใจที่สุดสำหรับคนที่ต้องการทำงานด้านข้อมูล
ธนชาติ นุ่มมนท์
IMC Institute