Xây dựng và chia sẻ nguồn dữ liệu mở

Chất lượng dữ liệu là vấn đề then chốt trong nghiên cứu AI, bởi 80% công việc nghiên cứu AI hiện nay là xử lý dữ liệu. Do vậy, bảo đảm chất lượng dữ liệu là rất quan trọng trong bất kỳ ứng dụng nào của AI. Tuy nhiên, theo nhận định của PGS, TS Thoại Nam, Giám đốc Trung tâm Kỹ thuật điện toán, Trường Đại học Bách khoa (Đại học Quốc gia TP Hồ Chí Minh), hạ tầng dữ liệu hiện có của Việt Nam mới ở mức sơ khai so với một số quốc gia khác, việc chia sẻ dữ liệu còn gặp nhiều thách thức. Nhiều nguồn dữ liệu chưa được tập hợp, phân bố rời rạc. Tính bảo mật, riêng tư của việc chia sẻ dữ liệu trong một số mô hình chưa được bảo đảm. Ngoài ra, doanh nghiệp, viện nghiên cứu còn hạn chế trong việc tiếp cận nguồn dữ liệu mở để tạo điều kiện nghiên cứu và phát triển những sản phẩm hữu ích.

TS Võ Sỹ Nam, Trưởng phòng Tin Y sinh ứng dụng, Viện Nghiên cứu Dữ liệu lớn (VinBigdata) cũng cho rằng, việc khai thác những dữ liệu mở, có sẵn là một thách thức tại Việt Nam hiện nay. Ông đưa ra dẫn chứng về cổng dữ liệu VinGen, là nền tảng quản lý, phân tích dữ liệu sinh học có quy mô lớn nhất Việt Nam ở thời điểm hiện tại. Hiện cổng dữ liệu này có gần 5.000GB dữ liệu, 10 máy tính toán, hơn 1.000 lõi tính toán. Thách thức chính của cổng dữ liệu này là hiệu năng hệ thống vì khối lượng tính toán lớn, tốn tài nguyên, cần cập nhật dữ liệu liên tục nhưng việc thu thập dữ liệu mở gặp rất nhiều khó khăn. TS Võ Sỹ Nam đề xuất, Nhà nước cần đưa ra những quy định về vấn đề chia sẻ dữ liệu, như một trung tâm lưu trữ dữ liệu dùng chung cần có các quy định chặt chẽ về vấn đề mở, chia sẻ dữ liệu như thế nào để người dùng tiếp cận thông tin dễ dàng hơn. Mặt khác, với các nghiên cứu, đề tài khoa học được cấp kinh phí từ ngân sách nhà nước nên công khai các nguồn dữ liệu để các đề tài, nghiên cứu này được ứng dụng rộng rãi. Ngoài ra, có rất nhiều bộ dữ liệu quý sau thời gian thu thập có thể được thương mại hóa.

leftcenterrightdel

Công ty Cổ phần Tay máy Việt Nam trình diễn công nghệ tay nâng trợ lực sử dụng trí tuệ nhân tạo tại Triển lãm quốc tế đổi mới sáng tạo Việt Nam 2021 (tháng 1-2021). Ảnh: LA DUY. 

Theo PGS, TS Lê Hoàng Thái, Giảng viên cao cấp Khoa Công nghệ thông tin, Trường Đại học Khoa học tự nhiên (Đại học Quốc gia TP Hồ Chí Minh), cần xác định được hướng nghiên cứu, tiến đến xây dựng dữ liệu hạ tầng để tạo ra kho dữ liệu. Công việc này là lưu trữ và sưu tầm dữ liệu đã có, gồm dữ liệu thứ cấp (là cơ sở hình thành bài toán thách thức lớn cần giải quyết) và dạng dữ liệu sơ cấp gắn liền với ứng dụng cụ thể, mang tính thô, là cơ sở dữ liệu riêng, có dán nhãn. Dữ liệu cũng cần phải đáp ứng mục tiêu chuyển đổi số của doanh nghiệp và phù hợp với các mục tiêu kinh doanh, tạo ra sản phẩm mới, giúp dự báo cơ hội đối với doanh nghiệp. Hiện Việt Nam đã có những bước đầu trong việc xây dựng dữ liệu mở, điển hình như: Đề án Hệ tri thức Việt số hóa, Cổng dữ liệu quốc gia.

Chú trọng đào tạo nguồn nhân lực chất lượng cao

Bên cạnh việc tập trung xây dựng hạ tầng dữ liệu thì việc đào tạo nguồn nhân lực chất lượng cao cho lĩnh vực AI cũng rất quan trọng. Có hạ tầng dữ liệu tốt mà không có lực lượng nhà khoa học có thể vận hành, tận dụng “tài nguyên” đó để biến thành tài sản có giá trị thì rất lãng phí. Thứ trưởng Bộ Khoa học và Công nghệ Bùi Thế Duy cho biết, để thúc đẩy phát triển lĩnh vực AI, tháng 1-2021, Chính phủ đã ban hành Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng AI đến năm 2030. Chiến lược này chú trọng đến công tác đào tạo nguồn nhân lực, kỹ thuật viên có thể xử lý các bài toán dữ liệu lớn; xây dựng đồng bộ cơ sở dữ liệu với hạ tầng tính toán; có phương pháp thu thập, làm sạch dữ liệu; đồng thời chia sẻ những hạ tầng tính toán, cơ sở dữ liệu một cách hợp lý, hiệu quả nhất.

GS Vũ Hà Văn, Giám đốc Khoa học VinBigdata chỉ ra thực tế chỉ 30% cử nhân công nghệ thông tin tốt nghiệp có thể làm việc liên quan đến AI, còn lại phải tiếp tục đào tạo mới có thể trở thành chuyên gia thành thạo. Nguyên nhân do sự khác biệt giữa đào tạo ở trường đại học và khi đi làm. VinBigdata đã xây dựng chương trình đào tạo kỹ sư AI dành cho sinh viên sắp ra trường. Tại đây, các kỹ sư được học đại số tuyến tính, xác suất thống kê để giúp xây dựng đội ngũ kỹ sư công nghệ chất lượng cao có kỹ năng giải quyết bài toán thực tiễn, đáp ứng nhu cầu nguồn lực. “Hơn 90% sinh viên khá, giỏi sau khi tham gia chương trình này đều có thể được giữ lại làm việc tại Tập đoàn Vingroup với mức lương cao hơn 2-3 lần sinh viên mới ra trường. Trong tương lai, họ có thể trở thành chuyên gia độc lập, dẫn dắt startup quy mô nhỏ”, GS Vũ Hà Văn chia sẻ.

Để phát triển nguồn nhân lực, nhiều chuyên gia đề xuất, ngay từ cấp đại học, cần đưa môn “nhập môn AI” vào mọi ngành học để giúp sinh viên biết các tư duy về thống kê, con số, năng lực và kỹ năng sử dụng dữ liệu. Bên cạnh đó, cần xây dựng các chương trình đào tạo cử nhân và thạc sĩ chuyên về AI và khoa học dữ liệu. Ngoài ra, cần có sự liên kết chặt chẽ hơn nữa giữa trường đại học, viện nghiên cứu và doanh nghiệp để xây dựng sản phẩm AI đặc trưng. Về phía cơ quan quản lý, TS Phạm Như Nghệ, Phó vụ trưởng Vụ Giáo dục đại học (Bộ Giáo dục và Đào tạo) cho biết, Bộ Giáo dục và Đào tạo đã phối hợp với các trường đại học thực hiện diện rộng các chương trình phổ cập kỹ năng xây dựng dữ liệu ứng dụng của AI, thúc đẩy đào tạo chính quy trình độ đại học và sau đại học. Ở cấp phổ thông có các dự án STEM là các dự án về giáo dục lồng ghép kiến thức khoa học và tính toán với các vấn đề trong công nghệ và kỹ thuật vào bài học.

Bài và ảnh: LA DUY