Theo Topdev3,nhu cầu kỹ sư công nghệ thông tin là khoảng 500.000 kỹ sư vào năm 2021-2022. Như vậy nếu hình dung khoảng 20% doanh nghiệp sẽ bắt đầu làm các sản phẩm có tính AI trong 1-2 năm tới, tương đương 100.000 kỹ sư liên quan, thì sẽ có nhu cầu khoảng 5.000 nhà khoa học dữ liệu cho Việt Nam (5%) trong năm 2021 này.
Các mô hình không giám sát ngược lại có thể áp dụng cho dữ liệu không dán nhãn, tức là không được phân loại hay chấm điểm sẵn. Ở đây doanh nghiệp có sẵn các bộ dữ liệu thô chưa có sự đánh giá và phân loại, thì các nhà khoa học dữ liệu có thể vận dụng được sự sáng tạo của mình để đưa ra các đặc tính chưa được hình dung trước, thậm chí tạo ra một mô hình kinh doanh mới. Các nhà khoa học dữ liệu sẽ cần nhiều kiến thức về toán và thống kê (cả mô tả và suy diễn), cụ thể là các phân phối xác suất, xác suất Bayes, ước lượng và kiểm định, đại số tuyến tính, phương pháp phân tích thành phần chính (“Principle Components Analysis” – PCA) hay phân tích giá trị đặc biệt (“Singular Value Decomposition” – SVD), các mô hình “Gaussian Mixture Model” hay “k-mean clustering”,…
Xu hướng thứ tư: sử dụng ™hộp đen∫ Deep Learning cho tất cả mọi thứ
Cũng là chuyển dịch mô hình, các nhà khoa học dữ liệu cũng đang đối diện với một xu hướng khác ở hướng ngược lại, đó là sử dụng “Deep Learning” (học sâu) cho mọi bài toán. Nguyên nhân là chúng hiệu quả, độ chính xác cao và dễ dàng triển khai hơn nhiều các mô hình Machine Learning (học máy) cổ điển. Đặc biệt học sâu phù hợp cho các dữ liệu phi cấu trúc là hình ảnh, âm thanh, giọng nói, và khối lượng dữ liệu lớn. Nhưng cũng chính xu hướng học sâu hóa này đang tạo ra một số vấn đề khá lớn trong AI hiện nay, đó là chúng hoạt động giống như một “hộp đen”.
Một mô hình học sâu là một tập hợp các neuron nối với nhau bởi các liên kết có trọng số. Các trọng số này sẽ được điều chỉnh hay “học” khi dữ liệu được đưa vào theo một cách khá cơ học, cho đến khi nào chúng có được giá trị phù hợp cho việc dự báo. Mô hình càng sâu, càng to thì càng chính xác, nhưng vấn đề chưa ai hiểu vì sao nó lại chính xác. Các tiến bộ về học sâu phần lớn là dựa trên thử sai và chưa giải thích được rõ ràng vì sao mô hình có kiến trúc như thế này lại phù hợp với dạng dữ liệu nào đó và các giá trị trọng số có vai trò gì? Nếu như cho trước một dạng dữ liệu có thể dự đoán sơ bộ kiến trúc mạng neuron nào, giá trị trọng số nào sẽ phù hợp trước khi chạy thử hay không?
Và điều này dẫn đến một hệ quả quan trọng là thế mạnh đang thuộc về những người hay doanh nghiệp có tiền, thật nhiều tiền, vì chạy mạng học máy tốn rất nhiều nguồn lực. Các mô hình tiên tiến nhất đang có đến hàng tỷ, hàng chục tỷ tham số cần học và giá cho một lần “học” đó có thể lên đến vài chục triệu đô la tiền tính toán. Điều này cũng đặt ra cho các nhà nghiên cứu về AI một bài toán hóc búa là giải thích được vì sao các mô hình học máy lại chạy tốt? Câu trả lời này sẽ giúp xây dựng được các hệ thống AI rẻ và nhanh hơn nhiều.
Xu hướng thứ năm: chuyên sâu về một dạng dữ liệu
Các nhà khoa học dữ liệu sẽ có một lợi thế lớn nếu hiểu rõ dữ liệu đặc thù ngành, ví dụ như tài chính, xã hội học, địa chất, thương mại hoặc đặc thù nguồn như dữ liệu vệ tinh, dữ liệu ảnh y tế/nông sản, dữ liệu âm thanh thoại, tiếng Việt,… Khi đó bạn có thể khá yên tâm với công việc mang nhiều tính khoa học này. Xu hướng này cũng có nghĩa là nghề khoa học dữ liệu sẽ rộng mở với nhiều ngành nghề khác nhau. Học tốt và hiểu rõ một ngành sau đó học thêm về khoa học dữ liệu và học sâu là một lựa chọn không tồi. Và một lưu ý cuối cùng là “hãy học tốt môn Toán” và sẵn sàng cho việc (học) lập trình rất nhiều.
Theo Topdev3,nhu cầu kỹ sư công nghệ thông tin là khoảng 500,000 kỹ sư vào năm 2021-2022. Như vậy nếu hình dung khoảng 20% doanh nghiệp sẽ bắt đầu làm các sản phẩm có tính AI trong 1-2 năm tới, tương đương 100,000 kỹ sư liên quan, thì sẽ có nhu cầu khoảng 5.000 nhà khoa học dữ liệu cho Việt Nam (5%) trong năm 2021 này.
Với xu hướng thứ hai chúng ta cần mở rộng các khóa học cơ bản về Khoa học dữ liệu cho mọi đối tượng liên ngành, từ điện tử đến hóa học, địa chất, từ marketing đến sale hay xã hội học,... Khoa Khoa học dữ liệu hay Trí tuệ nhân tạo nên là một khoa mở nhất của trường. Chúng ta đã thành công trong việc đào tạo phổ cập Tin học cho mọi sinh viên thì sắp tới sẽ là khoa học dữ liệu cơ bản. Xu hướng thứ ba và thứ tư có thể là tham khảo cho các chương trình học về Khoa học dữ liệu. Xu hướng thứ năm lại là một sự hợp tác đào tạo theo chiều ngược lại. Ở đó sinh viên của khoa Khoa học dữ liệu cần phải được gửi về các khoa khác để “học” tính chất của dữ liệu chuyên ngành và giúp giải quyết các bài toán chuyên ngành dựa trên khoa học dữ liệu. □
-----
Tham khảo:
* https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
2 https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/the-age-of-analytics-competing-in-a-data-driven-world
3 https://moit.gov.vn/web/guest/tin-chi-tiet/-/chi-tiet/topdev-nam-2019-viet-nam-thieu-hut-toi-90-000-nhan-luc-cntt-16444-402.html
Xu hướng số 2 và một phần của số 3 được tham khảo chủ yếu trong thảo luận sau:
https://www.quora.com/What-is-the-brutal-truth-about-data-scientists
Nguyễn Quang - Tiasang.