Tech

Azure Optimized Stack dengan DeepSpeed untuk Pelatihan Model Hyperscale

Chad Miles Agustus 19, 2022

Pembelajaran Mesin Azure (AzureML) sekarang menyediakan file Penambah Tumpukan Menggunakan teknologi GPU NVIDIA terbaru dengan Quantum Infiniband Untuk melatih model besar seperti Megatron Turing Dan GPT-3.

Dalam beberapa tahun terakhir, model pembelajaran mendalam berbasis transformator yang dilatih pada sejumlah besar data telah digunakan untuk produk baru dan banyak tugas kognitif. Model-model ini telah berkembang dalam ukuran dan ukuran dan pelanggan perlu melatih dan menyesuaikannya.

Pelatihan dan penyetelan jenis model ini memerlukan arsitektur terdistribusi yang kompleks, dan pengaturan arsitektur ini memerlukan banyak langkah manual dan rawan kesalahan. Dengan tumpukan baru yang ditingkatkan ini, AzureML memungkinkan pengalaman yang lebih baik dalam hal kegunaan dan kinerja, menyediakan alur pelatihan yang mudah digunakan. Paket AzureML yang disarankan meliputi: perangkat keras, OS, gambar VM, dan gambar Docker (dengan PyTorch yang ditingkatkan, Kecepatan Dalamdan ONNX Runtime dan paket Python lainnya) untuk kinerja dan skalabilitas tanpa kerumitan.

Tumpukan yang ditingkatkan untuk pelatihan terdistribusi yang dapat diskalakan di Azure

Pengaturan eksperimental yang mungkin terdiri dari: NDm A100 v4.Seri Ini mencakup dua port CPU AMD EPYC 7V12 64-Core, memori utama 1,7TB, dan delapan GPU A100 80GB. Topologi PCIe seimbang digunakan untuk menghubungkan 4 GPU per CPU dan setiap GPU memiliki topologi NVIDIA Mellanox HDR InfiniBand 200Gb/s sendiri. Memori utama 1,7 TB dan kemampuan offload library DeepSpeed memungkinkan peningkatan model besar. Penyiapan ini dapat digunakan di studio AzureML dan Azure VMSS tetapi solusi studio AzureML direkomendasikan karena ini adalah cara termudah untuk menyiapkan dan menjalankan cara yang benar dan mudah.

Perbedaan antara arsitektur terdistribusi dan pengaturan pelatihan AzureML

Paket AzureML yang diusulkan memungkinkan pelatihan yang efisien dengan ukuran model 2x lebih besar (parameter 2 triliun vs. 1 triliun), meningkatkan hingga 2x lebih banyak GPU (1024 vs. 512), dan throughput komputasi/GPU hingga 1,8x lebih tinggi (150 TFLOP vs. .81 TFLOP). ). Kombinasi ini juga memiliki kemampuan untuk menawarkan skalabilitas hampir linier dalam hal penskalaan model dan peningkatan jumlah GPU. Berkat DeepSpeed ZeRO-3 dengan CPU-nya sendiri bongkar muat Kemampuan dan tumpukan AzureML baru, throughput GPU efektif / 157 TFLOP dipertahankan karena model ditingkatkan dari 175 miliar menjadi 2 triliun parameter, dan dengan ukuran model (misalnya 175 miliar pada grafik berikut), penskalaan linier tercapai jika Jumlah GPU meningkat.

READ Konsorsium Akselerator mengumumkan pendanaan sebesar $1,2 juta untuk proyek yang mempercepat penemuan ilmiah

Hasil yang lebih rinci dijelaskan dalam kecepatan dalam yang diperpanjang blog teknologi.