ChatGPT nào cho Việt Nam?

Là nhà tư vấn công nghệ, tôi khuyến nghị Chính phủ và doanh nghiệp cần nhanh chóng hành động để cập nhật các chiến lược phát triển AI, ưu tiên phát triển dịch vụ ChatGPT cho người dân Việt Nam.

Chiến lược phát triển mô hình ngôn ngữ

Trước đây, để tìm kiếm thông tin và tài liệu cũng như các ý tưởng cho bài viết, tôi thường sử dụng Google. Nhưng từ hai tháng nay, khi công cụ Trí tuệ nhân tạo (AI) ChatGPT của hãng Open AI, mà tỷ phú Elon Musk là đồng sáng lập, ra mắt công chúng, việc dùng cơ chê tìm kiếm (search engine) giảm hẳn.

Hãng này đã đưa ra báo động đỏ (code red) sau khi ChatGPT ra mắt. Microsoft đầu tư 10 tỷ vào hãng khởi nghiệp Open AI, khởi động cuộc chiến công cụ tìm kiếm, do Google thống trị hơn 20 năm nay.

Trí tuệ nhân tạo (AI) hay học máy (machine learning) là khái niệm công nghệ tiên tiến. Nhiều người dùng các dịch vụ do công nghệ này cung cấp hàng ngày. Từ việc xem những khuyến mãi trên trang web của Amazone và các trang chợ điện tử đến việc xem những khuyến nghị các bộ phim trên Netflix, các bài nhạc trên Spotify.

Bạn có thể ra lệnh bằng giọng nói sử dụng Siri trên iPhone, Google Assistant trên điện thoại Android. Nhưng trải nghiệm trực tiếp, hội thoại thú vị với một công cụ AI như ChatGPT chưa từng có trước đây. Và điều này tạo nên cơn sốt với hơn 100 triệu người dùng đăng ký sử dụng hai tháng nay và 13 triệu người dùng hàng ngày.

Sử dụng ChatGPT với các câu hỏi bằng ngôn ngữ tiếng Anh tốt hơn bằng các ngôn ngữ khác. Theo tiến sĩ Thompson của Life AI, ngữ liệu tiếng Anh chiếm đến hơn 92% trong tồng số 570 GB dữ liệu huấn luyện cho mô hình ngôn ngữ lớn (Large Language Model) này. 

 

Các ngữ liệu khác chiếm vị trí khá khiêm tốn và điều này khiến cho năng lực xử lý ngôn ngữ khác tiếng Anh khá hạn chế. Các nhà khoa học đã hiểu rõ những hạn chế này, và cộng đồng AI đã thực hiện sáng kiến mã nguồn mở (Open Source) cho mô hình ngôn ngữ lớn với tên gọi Bloom. Mô hình này có 176 tỷ tham số vo với 175 tỷ tham số của mô hình GPT 3.5 mà Open AI dựa vào để xây dựng nên công cụ ChatGPT.

Đây là sự hợp tác sâu rộng  với sự tham gia của hơn 1000 nhà nghiên cứu từ hơn 70 quốc gia và hơn 250 tổ chức, dẫn đến kết quả cuối cùng là 117 ngày huấn luyện (train) mô hình Bloom trên siêu máy tính Jean Zay (Paris, Pháp) nhờ khoản tài trợ điện toán trị giá ước tính khoảng 3 triệu € từ các cơ quan nghiên cứu của Pháp CNRS và GENCI. Dù ngữ liệu tiếng Anh vẫn chiếm đa số (trên 30%) nhưng có sự phân bố ngữ liệu ưu tiên hơn cho các ngôn ngữ khác như Trung quốc (17%) và của Châu Âu như Pháp, Tây Ban Nha, Đức, Ý.

 

Tuy nhiên, với các mô hình ngôn ngữ lớn, vấn đề quan trọng là chi phí huấn luyện, vận hành bên cạnh các khả năng nghiên cứu khoa học. Siêu máy tính được phát triển cho OpenAI (tính đến tháng 5 năm 2020) là một hệ thống duy nhất có hơn 285.000 lõi CPU, 10.000 GPU, sử dụng GPU NVIDIA Tesla V100 được phát hành vào tháng 5/2017, được thay thế bởi GPU NVIDIA Ampère A100 vào tháng 5/2020, và 400 gigabit trên mỗi giây kết nối mạng cho mỗi máy chủ GPU. Xếp hạng Top 5 trong 500 siêu máy tính lớn nhất thế giới và được vận hành trên nền tảng đám mây Azure của Microsoft.

Để huấn luyện mô hình GPT-3 với 175 tỷ tham số sẽ cần khoảng 288 năm với một hệ thống dùng một GPU NVIDIA V100 duy nhất. Giá GPU NVIDIA V100 hay GPU NVIDIA Ampère A100 khoảng 10.000 USD, điều này ngoài tầm với của cá nhân và các doanh nghiệp vừa và nhỏ (SMEs).

Theo một ước tính của tạp chí CIO, OpenAI có thể chi ít nhất 100 nghìn đô la mỗi ngày hoặc 3 triệu đô la hàng tháng cho chi phí vận hành. Để phục vụ một yêu cầu (request) của người dùng trong 13 triệu người dùng thế giới, cần phải có hệ thống gồm 5 GPU A100  và như vậy chỉ có hãng công nghệ hùng mạnh cỡ Microsot mới có thể thực hiện được.

Trở lại vấn đề mô hình ngôn ngữ lớn cho quốc gia, hầu hết các quốc gia nói chung và Việt Nam nói riêng đã xây dựng chiến lược phát triển AI. Tuy nhiên, với tình hình thay đổi nhanh chóng, cần cập nhật ngay chiến lược phát triển mô hình ngôn ngữ lớn, một nhánh đang chiếm vị trí trung tâm trong các hoạt động chiến lược hiện nay.

Việc ứng dụng AI làm tăng hiệu suất công việc lên gấp 4,5 lần và mang lại các giá trị kinh tế xã hội khá lớn. Nhu cầu có một dịch vụ ChatGPT của người Việt, do người Việt làm chủ và phục vụ nhu cầu thiết thực của người Việt là điều hết sức cần thiết.

Chính phủ cần nhanh chóng hành động

Chọn lựa mô hình đầu tư: Chúng ta nên áp dụng những thành quả của nhân loại thay vì phát minh lại từ đầu. Như vậy, có thể sử dụng các LLL sẵn có dưới hai dạng: LLM đóng và mở.

 

Các mô hình nguồn


Chúng ta có thể lựa chọn mô hình nguồn mở Bloom hay OPT-175B của Meta, tương đương với ChatGPT cho mô hình quốc gia. Những cải tiến trong LLL bắt đầu với sự giới thiêu công nghệ Transformer (2107) là kết quả của nhiều thập kỷ đổi mới máy học và máy tính cũng như những tiến bộ công nghệ và việc triển khai đòi hỏi:

Phần cứng: Xây dựng kết hợp với cấu trúc GPU cải tiến và song song hóa cho phép huấn luyện các mô hình lớn hơn với lượng dữ liệu lớn hơn (hàng trăm, hàng ngàn hệ thống A100 của Nvidia). Một hệ thống 8GPU bộ nhớ 80GB Ram khoảng 100.000 USD. Đầu tư ban đầu khoảng 100 hệ thống, bằng 1/10 hệ thống của ChatGPT khoảng 10 triệu USD.

Dữ liệu: Đây là vấn đề cơ bản nhất, mặc dù khá tẻ nhạt nhưng lại chiếm đến 80% khối lượng công việc. EleutherAI đã mất 12-18 tháng để thống nhất, thu thập, làm sạch và chuẩn bị dữ liệu cho The Pile, công cụ AI của họ. Lưu ý, nếu The Pile chỉ có ~400 tỷ token so ~1400 tỷ token huấn luyện mô hình Chinchilla. Dù tham số là một yếu tố, xác định kích cỡ của LLL nhưng không phải là tất cả.

Một minh chứng là mô hình Chinchilla, sử dụng cùng một ngân sách điện toán như Gopher nhưng có 70 tỷ tham số  và nhiều dữ liệu hơn gấp 4 lần, đã có hiệu năng hơn mô hình Gopher với nhiều tham số (280 tỷ) hơn. Các mô hình ngôn ngữ lớn hiện tại “được huấn luyện dưới mức đáng kể” (significantly undertrained). Đây là hệ quả của việc mở rộng mô hình một cách mù quáng  mà không chú trọng đến dữ liệu huấn luyện đầu vào. Làm cho các mô hình lớn hơn, nhiều tham số hơn không phải là cách duy nhất để cải thiện hiệu suất.

Thời gian huấn luyện: Để huấn luyện một mô hình, cần 9-12 tháng huấn luyện và đó là nếu mọi thứ diễn ra hoàn hảo. Có thể cần huấn luyện nhiều lần và huấn luyện song song nhiều mô hình để tối ưu va so sánh.

Học với ít lần huấn luyện (Few shot learning): LLM được hưởng lợi từ việc học ít lần, LLM thể thực hiện một số nhiệm vụ nhất định mà không cần huấn luyện cụ thể. Việc huấn luyện ở tầm quốc gia chỉ tập trung vào các ngữ liệu tổng quát. Những lĩnh vực cụ thể (y tế, giáo dục, luật pháp, nghiên cứu khoa học) sẽ thúc đẩy sự đổi mới và sáng tạo khởi nghiệp, vì việc gắn nhãn các tập dữ liệu (label data) theo truyền thống là một nút cổ chai và chiếm chi phí lớn cho việc huấn luyện.

Nhân sự: Lĩnh vực AI đòi hỏi tài năng về lĩnh vực mũi nhọn này. Tuy nhiên, tôi tin đây lại là thế mạnh của Việt Nam. Chúng ta rất giỏi trong việc nghiên cứu và áp dụng AI. Nhưng cần một cơ chế và điều phối, điều này đang là trở ngại cho những dự án tầm chiến lược quốc gia.

Tóm lại, sự xuất hiện của các mô hình ngôn ngữ lớn, như ChatGPT, đã mang đến một kỷ nguyên mới của công nghệ trí tuệ nhân tạo; và có khả năng cách mạng hóa cách chúng ta tương tác với máy tính và thế giới xung quanh.

Tuy nhiên, sự hạn chế của các ngôn ngữ không phải tiếng Anh và chi phí đào tạo và vận hành các mô hình này cao là một thách thức đáng kể đối với việc áp dụng và sử dụng rộng rãi ở các quốc gia như Việt Nam.

Để giải quyết thách thức này, điều cần thiết là chính phủ và doanh nghiệp lớn phải đầu tư phát triển một mô hình ngôn ngữ lớn phục vụ nhu cầu thiết thực của người Việt Nam. Bằng cách sử dụng các mô hình nguồn mở hiện có như Bloom và OPT-175B, đồng thời đầu tư vào phần cứng và chuẩn bị dữ liệu cần thiết. Việt Nam có thể tận dụng sức mạnh của AI để tăng hiệu quả công việc và mang lại lợi ích kinh tế xã hội to lớn cho người dân.

Với tư cách là nhà tư vấn công nghệ, tôi thực sự khuyến nghị chính phủ và doanh nghiệp cần nhanh chóng hành động để cập nhật các chiến lược phát triển AI và ưu tiên phát triển dịch vụ ChatGPT cho người dân Việt Nam.

Bằng cách đó, chúng ta có thể đảm bảo rằng không ai bị bỏ lại phía sau trong cuộc đua đổi mới công nghệ và người Việt có thể hưởng lợi toàn bộ tiềm năng của công nghệ mới thú vị này.

Đào Trung Thành

Hai học sinh trường chuyên lộ clip nhạy cảm

Lãnh đạo Sở GD-ĐT tỉnh Đắk Lắk cho biết, cơ quan này đã yêu cầu nhà trường báo cáo, xử lý vụ việc rò rỉ clip có hình ảnh nhạy cảm của 2 học sinh trường chuyên.

Tiệc chia tay độc thân xa hoa của con nhà giàu

Đó là những bữa tiệc xa hoa với nhiều trải nghiệm đỉnh cao, khiêu vũ nhảy múa xuyên đêm, thậm chí dùng trực thăng riêng để bay trong chuyến đi dài ngày đến khu nghỉ dưỡng sang trọng.

Học sinh lớp 5 trả lại gần 100 triệu đồng nhặt được

Hai học sinh Trường tiểu học Phú Ngọc B (huyện Định Quán, Đồng Nai) nhặt được giỏ xách, trị giá tài sản khoảng 100 triệu đồng, đã giao trả lại cho người đánh rơi.

Tranh cãi thí điểm lớp học bắt đầu lúc 5h30 ở Indonesia

Là một phần của dự án thử nghiệm, việc học sinh lớp 12 ở tỉnh Kupang (Indonesia) phải đến trường lúc 5h30 đã gây ra sự bất bình trong dư luận.

Hẹn hò hơn 1 năm mới biết bạn gái là vợ của bạn thân

Anh Chu không chỉ dành tình cảm mà còn nhiều lần chuyển tiền cho người bạn gái. Thế nhưng ngày biết thân thế của cô, anh sốc nặng.

Tiến sĩ công nghệ 26 tuổi nhận lương hơn 23 tỷ đồng/năm

Ninh Bác Vũ (26 tuổi) - Tiến sĩ Đại học Khoa học và Công nghệ Điện tử Trung Quốc, được tập đoàn công nghệ Huawei mời về làm việc với mức lương 1 triệu USD/năm (hơn 23 tỷ/năm).

Phụ huynh ‘vỡ mộng’ khi con IELTS cao, du học vẫn chật vật nói tiếng Anh

IELTS - chứng chỉ đang được rất nhiều người theo đuổi đặc biệt là các bạn học sinh với nhiều giá trị đem lại như quy đổi điểm thi, tuyển thẳng vào đại học… Do đó, ngày càng có nhiều phụ huynh luyện thi IELTS cho con từ rất sớm.

Khỏa thân trên phố, 'nữ hoàng phim teen' bị đưa vào trại tâm thần

Diễn viên Amanda Bynes lập tức bị chuyển vào viện tâm thần khi cảnh sát phát hiện cô một mình lang thang trên phố trong trạng thái không mảnh vải che thân.

Lệnh cấm TikTok tại Mỹ sẽ hoạt động theo cơ chế nào?

Nếu TikTok bị cấm hoàn toàn tại Mỹ, việc sử dụng máy chủ ảo (VPN) để kết nối tới ứng dụng cũng không dễ dàng và hàng triệu người làm ăn kinh doanh dựa vào ứng dụng này sẽ bị ảnh hưởng.

Lý do nhiều sinh viên đại học hàng đầu ở Anh muốn bỏ học

Một nghiên cứu mới đây chỉ ra 20% sinh viên các trường top của Anh thường xuyên không đủ thức ăn và các nhu yếu phẩm khác. Đây là nguyên nhân khiến họ cân nhắc việc rời bỏ trường học.

Đang cập nhật dữ liệu !