Microsoft công bố DeepSpeed, thư viện deep learning mới có thể hỗ trợ đào tạo các mô hình AI với quy mô siêu lớn

Website truongthinh.info có bài Microsoft công bố DeepSpeed, thư viện deep learning mới có thể hỗ trợ đào tạo các mô hình AI với quy mô siêu lớnMicrosoft Research mới đây đã khiến giới nghiên cứu trí tuệ nhân tạo (AI) xôn xao khi công bố phát triển thành công DeepSpeed, một thư viện tối ưu hóa deep learning có thể được sử dụng để đào tạo các mô hình AI khổng lồ với quy mô lên tới 100 tỷ tham số.

Microsoft Research gần đây đã khiến giới nghiên cứu trí não nhân tạo (AI) xôn xao khi công bố phát triển thành đạt DeepSpeed, một thư viện tối ưu hóa deep learning có thể được sử dụng để huấn luyện các mô hình AI khổng lồ với quy mô lên tới 100 tỷ tham số.

Trong đào tạo AI, nếu bạn sở hữu các mô hình ngôn ngữ tự nhiên càng lớn thì độ chuẩn xác sẽ càng cao. Tuy nhiên việc huấn luyện các dòng hình ngôn ngữ tự nhiên lớn tốn kém cực nhiều thời gian, và chi phí liên quan cũng không hề nhỏ. DeepSpeed được ra đời để khắc phục toàn bộ những khó khăn trên: Cải thiện tốc độ, chi phí, quy mô huấn luyện và khả năng sử dụng.

Ngoài ra, Microsoft cũng nhắc đến đến việc DeepSpeed còn bao gồm cả ZeRO (Zero Redundancy Optimizer), một kỹ thuật tối ưu hóa song song giúp giảm thiểu lượng tài nguyên cần có cho những mô hình, trong khi vẫn giúp nâng lên lượng tham số có thể được đào tạo. Bằng việc sử dụng phối hợp giữa DeepSpeed và ZeRO, các nhà nghiên cứu của Microsoft đã có thể phát triển thành đạt mô hình Turing Natural Language Generation (Turing-NLG) mới – mô hình ngôn ngữ lớn số 1 hiện giờ với 17 tỷ tham số.

DeepSpeed

Một số điểm đặc biệt của DeepSpeed:

  • Quy mô: Các loại hình AI lớn, tiên tiến hiện giờ như OpenAI GPT-2, NVIDIA Megatron-LM và Google T5 có quy mô lần lượt là 1,5 tỷ, 8,3 tỷ và 11 tỷ tham số. ZeRO thời kì 1 trong DeepSpeed có thể cung cấp khả năng bổ trợ hệ thống để chạy các loại hình lên tới 100 tỷ tham số, tức là lớn hơn 10 lần so với mô hình lớn số 1 của Google.
  • Tốc độ: Thông lượng được ghi nhận sẽ được mức tăng không trùng lặp tùy theo cấu hình phần cứng. Trên các cụm GPU NVIDIA có kết nối băng thông thấp (không có NVIDIA NVLink hoặc Infiniband), DeepSpeed đạt được sự cải thiện thông lượng gấp 3,75 lần so với chỉ sử dụng Megatron-LM cho loại hình GPT-2 tiêu chuẩn với 1,5 tỷ tham số. Trên cụm NVIDIA DGX-2 có kết nối đường truyền cao, đối với những mẫu nắm giữ từ 20 đến 80 tỷ tham số, DeepSpeed nhanh hơn từ 3 đến 5 lần.
  • Chi phí: Từ những cải thiện về tốc độ, kinh phí huấn luyện cũng sẽ được tối ưu đáng kể. Ví dụ, để đào tạo một mô hình với 20 tỷ tham số, DeepSpeed yêu cầu lượng tài nguyên ít hơn 3 lần so với thông thường.
  • Tính khả dụng: Chỉ cần một vài thay đổi nhỏ liên quan đến code để là các loại hình hiện hành có thể chuyển qua sử dụng DeepSpeed và ZeRO. DeepSpeed không yêu cầu thiết kế lại code hoặc tái cấu trúc mô hình.

Microsoft đang mở nguồn cho tất cả DeepSpeed và ZeRO trên GitHub, mời bạn tham khảo.

Từ khóa bài viết: truongthinh.info, trí tuệ nhân tạo, ai, mô hình ngôn ngữ, deep learning, mô hình ngôn ngữ quy mô lớn, DeepSpeed, Zero Redundancy Optimizer, ZeRO, Microsoft

Bài viết Microsoft công bố DeepSpeed, thư viện deep learning mới có thể hỗ trợ đào tạo các mô hình AI với quy mô siêu lớn được tổng hợp và biên tập bởi: truongthinh.info. Mọi ý kiến đóng góp và phản hồi vui lòng gửi Liên Hệ cho truongthinh.info để điều chỉnh. truongthinh.info xin cảm ơn.