آیا می‌توان از GPU برای سرعت بخشیدن به حل در Ansys Fluent استفاده کرد؟

مقالات تخصصی

در دنیای مهندسی مدرن، سرعت در شبیه‌سازی‌های دینامیک سیالات محاسباتی (CFD) دیگر یک مزیت لوکس نیست، بلکه یک ضرورت استراتژیک به شمار می‌رود. مهندسان و محققان برای بهینه‌سازی طراحی‌ها، کاهش هزینه‌های نمونه‌سازی فیزیکی و تسریع فرآیند نوآوری، به نتایج سریع و دقیق نیاز دارند. در این میان، استفاده از GPU در فلوئنت به عنوان یک راه‌حل کلیدی برای شکستن سد زمان محاسبات مطرح شده است. این فناوری با بهره‌گیری از معماری پردازش موازی، پتانسیل کاهش چشمگیر زمان حل و افزایش بهره‌وری را فراهم می‌کند.

این مقاله به صورت جامع و کاملاً مبتنی بر مستندات فنی و تجربیات عملی کاربران، به بررسی مزایا، محدودیت‌ها، نحوه فعال‌سازی و ملاحظات کلیدی برای بهره‌برداری از قدرت پردازنده‌های گرافیکی (GPU) در نرم‌افزار Ansys Fluent می‌پردازد. در ادامه، ابتدا مبانی فنی این شتاب‌دهی را بررسی کرده، سپس به ارزیابی عملکرد واقعی آن می‌پردازیم و در نهایت، راهنمای عملی برای پیکربندی و شناخت محدودیت‌های آن ارائه خواهیم داد.

آنچه در این مقاله می‌خوانید

مبانی شتاب‌دهی با GPU: چرا GPU برای CFD مناسب است؟

برای درک اینکه چرا GPUها در محاسبات CFD تا این حد کارآمد هستند، ابتدا باید تفاوت‌های معماری بنیادین بین پردازنده‌های مرکزی (CPU) و پردازنده‌های گرافیکی (GPU) را بشناسیم. این دو نوع پردازنده برای اهداف متفاوتی طراحی شده‌اند و همین تفاوت، دلیل اصلی برتری GPU در وظایف خاصی مانند حل معادلات دینامیک سیالات است.

جدول زیر تفاوت‌های کلیدی این دو معماری را مقایسه می‌کند:

پردازنده مرکزی (CPU)	پردازنده گرافیکی (GPU)
نوع پردازش: بهینه‌سازی شده برای پردازش سریال و اجرای سریع وظایف پیچیده و متنوع.	نوع پردازش: طراحی شده برای پردازش موازی انبوه و اجرای همزمان هزاران وظیفه ساده و تکراری.
تعداد هسته‌ها: تعداد کمی هسته قدرتمند (معمولاً بین ۴ تا ۶۴ هسته).	تعداد هسته‌ها: هزاران هسته ساده‌تر و کم‌مصرف‌تر.
کاربرد اصلی: وظایف عمومی سیستم‌عامل، مدیریت ورودی/خروجی و محاسبات پیچیده تک‌رشته‌ای.	کاربرد اصلی: رندرینگ گرافیکی، یادگیری ماشین و محاسبات علمی که قابلیت موازی‌سازی بالایی دارند.
پهنای باند حافظه: کمتر.	پهنای باند حافظه: بسیار بیشتر، برای انتقال سریع حجم عظیمی از داده‌ها به هسته‌های پردازشی.

معماری پردازش موازی انبوه (Massively Parallel) در GPU، آن را برای حل دستگاه معادلات ماتریسی گسترده که هسته اصلی حلگرهای CFD را تشکیل می‌دههند، به گزینه‌ای ایده‌آل تبدیل می‌کند. در هر گام زمانی یا تکرار حل، محاسبات مشابه و تکراری روی میلیون‌ها سلول مش انجام می‌شود. GPU می‌تواند این محاسبات را به صورت همزمان بر روی هزاران هسته خود توزیع کند و به این ترتیب، فرآیندی را که برای CPU بسیار زمان‌بر است، در مدت زمان بسیار کوتاه‌تری به اتمام برساند. این توانایی، مبنای افزایش سرعتی است که در عمل مشاهده می‌شود و در بخش بعدی به صورت کمی به آن خواهیم پرداخت.

ارزیابی عملکرد: افزایش سرعت در عمل چقدر است؟

فراتر از تئوری، مهم‌ترین سوال برای هر مهندس این است که استفاده از GPU در عمل چقدر زمان شبیه‌سازی را کاهش می‌دهد. پاسخ به این سوال نیازمند ارزیابی کمی عملکرد و بررسی داده‌های بنچمارک است. نتایج منتشر شده توسط Ansys، NVIDIA و کاربران متخصص نشان می‌دهد که افزایش سرعت نه تنها قابل توجه، بلکه در بسیاری از موارد تحول‌آفرین است.

داده‌های حاصل از مطالعات موردی و بنچمارک‌های مختلف، نکات کلیدی زیر را آشکار می‌سازند:

محدوده افزایش سرعت: بسته به نوع مدل، پیچیدگی فیزیک و نسل سخت‌افزار، شتاب‌دهی با GPU می‌تواند سرعتی بین ۳ تا بیش از ۳۰ برابر در مقایسه با حل مبتنی بر CPU فراهم کند.
مثال‌های موردی: در شبیه‌سازی‌های آیرودینامیک خارجی و مسائلی که شامل حرکت قاب (Frame Motion) هستند، افزایش سرعتی معادل ۸ تا ۱۰ برابر به طور معمول گزارش شده است.
معادل‌سازی با CPU: برای درک بهتر این قدرت، می‌توان عملکرد یک GPU را با تعداد هسته‌های CPU معادل‌سازی کرد. به عنوان مثال، یک GPU قدرتمند مانند NVIDIA H100 می‌تواند عملکردی معادل ۱۲۴ تا ۴۱۲ هسته CPU ارائه دهد. این بدان معناست که یک سرور مجهز به چند GPU می‌تواند جایگزین یک کلاستر بزرگ مبتنی بر CPU شود.
مقایسه نسل‌های مختلف GPU: فناوری GPU به سرعت در حال پیشرفت است. برای مثال، در بنچمارک‌های مشخص (مانند مدل DrivAer با ۲۵۰ میلیون سلول)، یک سیستم مجهز به هشت کارت NVIDIA H200 توانسته عملکردی تا ۱.۹ برابر سریع‌تر از سیستمی مشابه با هشت کارت A100 ارائه دهد که نشان‌دهنده جهش‌های عملکردی قابل توجه در هر نسل جدید است.

علاوه بر سرعت، کاهش مصرف انرژی یکی دیگر از مزایای کلیدی است. از آنجایی که GPUها برای پردازش موازی بهینه‌سازی شده‌اند، بهره‌وری انرژی بالاتری نسبت به کلاسترهای CPU دارند. در یک مطالعه موردی بر روی یک شبیه‌سازی حرارتی گذرا (Transient CHT)، حل مبتنی بر GPU توانست مصرف کل انرژی سخت‌افزار را تا ۶۷٪ کاهش دهد. این مزیت نه تنها هزینه‌های عملیاتی را کاهش می‌دهد، بلکه به اهداف پایداری سازمان‌ها نیز کمک می‌کند.

در مجموع، شواهد نشان می‌دهد که افزایش سرعت با GPU کاملاً واقعی و قابل دستیابی است، اما بهره‌برداری از این پتانسیل نیازمند فعال‌سازی و پیکربندی صحیح حلگر است که در بخش بعدی به آن می‌پردازیم.

راهنمای عملی: فعال‌سازی و پیکربندی حلگر GPU

بهره‌برداری از قدرت GPU در Ansys Fluent فراتر از داشتن سخت‌افزار مناسب است و به پیکربندی صحیح نرم‌افزار نیز بستگی دارد. این بخش یک راهنمای گام‌به‌گام برای فعال‌سازی و تنظیم حلگر GPU، از تنظیمات اولیه تا پارامترهای پیشرفته، ارائه می‌دهد.

فعال‌سازی اولیه

ساده‌ترین راه برای فعال کردن GPU از طریق پنجره Fluent Launcher است:

در پنجره Fluent Launcher، در بخش Processing Options، گزینه Parallel را انتخاب کنید.
به تب Parallel Settings بروید.
در فیلد GPGPUs per Machine، تعداد کارت‌های گرافیکی که می‌خواهید در هر ماشین (سرور) استفاده شوند را مشخص کنید.

برای کاربرانی که از محیط خط فرمان لینوکس استفاده می‌کنند، دستور زیر معادل همین تنظیمات است:

fluent <version> -g -t<nprocs> -gpgpu=<ngpgpus>

در این دستور، <nprocs> تعداد کل هسته‌های CPU و <ngpgpus> تعداد GPUها در هر ماشین را مشخص می‌کند.

پیکربندی صحیح سخت‌افزار

برای دستیابی به عملکرد پایدار و بهینه، پیکربندی سخت‌افزاری باید از چند قانون کلیدی پیروی کند:

توزیع همگن پردازش‌ها (Homogeneous process distribution): تعداد پردازش‌های (Processes) تخصیص داده شده به هر نود (Node) در یک کلاستر باید یکسان باشد.
انتخاب همگن GPUها (Homogeneous GPU selection): تمام نودها باید از تعداد و مدل یکسانی از GPUها استفاده کنند. استفاده از کارت‌های گرافیک متفاوت یا تعداد مختلف در نودهای گوناگون پشتیبانی نمی‌شود.
قانون بخش‌پذیری: تعداد کل پردازش‌ها در هر ماشین باید مضرب صحیحی از تعداد GPUهای همان ماشین باشد. برای مثال، اگر از ۲ کارت گرافیک استفاده می‌کنید، می‌توانید ۸، ۱۲ یا ۱۶ پردازش را اجرا کنید، اما ۱۵ پردازش قابل قبول نیست.

تنظیمات پیشرفته حلگر (AmgX)

حلگر معادلات خطی که روی GPU اجرا می‌شود، مبتنی بر کتابخانه AmgX انویدیا است و با حلگر پیش‌فرض CPU تفاوت دارد. با تغییر پارامترهای این حلگر، می‌توان عملکرد و مصرف حافظه را بهینه‌سازی کرد. این تنظیمات از طریق دستور rpsetvar در فایل Journal یا محیط TUI انجام می‌شود. به عنوان مثال، دستور زیر نحوه تنظیم پارامترها را نشان می‌دهد:

(rpsetvar 'amg/nvamg-config "main:max_iters=20, amg:selector=SIZE_2")

مهم‌ترین پارامترهای قابل تنظیم در AmgX عبارتند از:

selector: این پارامتر، الگوریتم تجمیع چندشبکه‌ای (Aggregation) را مشخص می‌کند. گزینه‌های متداول آن SIZE_2، SIZE_4 و SIZE_8 هستند. تجربه نشان داده است که SIZE_2 اغلب بهینه‌ترین گزینه از نظر تعادل بین عملکرد و مصرف حافظه است.
max_iters: این پارامتر حداکثر تعداد تکرارها را در حلگر FGMRES تعیین می‌کند. در مسائلی که به واگرایی نزدیک می‌شوند، حلگر ممکن است تا سقف تکرارها (مثلاً ۱۰۰) ادامه دهد که باعث افت شدید عملکرد می‌شود. کاهش این مقدار به یک عدد منطقی مانند ۲۰ یا ۳۰ می‌تواند از این مشکل جلوگیری کند.
gmres_n_restart: این پارامتر بر میزان حافظه VRAM مورد نیاز برای حلگر تأثیر مستقیم دارد. اگر با خطای کمبود حافظه (Out of Memory) مواجه شدید، کاهش این مقدار (مثلاً به نصف max_iters) می‌تواند به رفع مشکل کمک کند.

این تنظیمات پیشرفته به کاربران امکان می‌دهد تا حلگر را برای مدل خاص خود بهینه‌سازی کنند. با این حال، علاوه بر تنظیمات نرم‌افزاری، درک محدودیت‌های ذاتی این فناوری نیز برای استفاده موفقیت‌آمیز حیاتی است.

ملاحظات کلیدی و محدودیت‌ها: «اما و اگرها»

اگرچه شتاب‌دهی با GPU یک پیشرفت بزرگ محسوب می‌شود، اما یک راه‌حل جادویی برای تمام مسائل CFD نیست. تصمیم‌گیری آگاهانه برای سرمایه‌گذاری روی این فناوری نیازمند درک دقیق محدودیت‌های آن است. در این بخش به چهار محدودیت اصلی می‌پردازیم.

حافظه GPU (VRAM)، بزرگترین گلوگاه

شاید بزرگترین محدودیت عملی در استفاده از GPU، حجم حافظه ویدیویی (VRAM) موجود روی کارت گرافیک باشد. کل مدل، شامل مش و داده‌های حل، باید در حافظه VRAM تمام GPUهای مورد استفاده جای گیرد. اگر مدل بزرگتر از حافظه موجود باشد، حلگر با خطای Out of Memory متوقف خواهد شد.

قانون سرانگشتی زیر (بر اساس مستندات Ansys) به تخمین حافظه مورد نیاز کمک می‌کند:

جدول تخمین حافظه VRAM مورد نیاز (بر حسب گیگابایت) به ازای هر ۱ میلیون سلول سیال

نوع مش	دقت تکی، حلگر Segregated	دقت تکی، حلگر Coupled	دقت مضاعف، حلگر Segregated	دقت مضاعف، حلگر Coupled
تتراهدرال	1.0 GB	1.8 GB	1.6 GB	3.0 GB
هگزاهدرال	1.2 GB	2.2 GB	1.9 GB	3.6 GB
پلی‌هدرال	1.8 GB	3.4 GB	2.8 GB	5.6 GB

همانطور که مشاهده می‌شود، استفاده از مش پلی‌هدرال، حلگر Coupled و دقت مضاعف، نیاز به حافظه را به شدت افزایش می‌دهد. به همین دلیل، برای شبیه‌سازی‌های بزرگ صنعتی، استفاده از کارت‌های گرافیک حرفه‌ای با حافظه بالا مانند NVIDIA A100 (80GB) یا H200 (141GB) ضروری است.

قابلیت‌ها و مدل‌های فیزیکی پشتیبانی‌شده

در حال حاضر، تمام قابلیت‌ها و مدل‌های فیزیکی موجود در Ansys Fluent بر روی GPU پشتیبانی نمی‌شوند. مهم است که توجه داشته باشیم تیم توسعه Ansys به سرعت در حال گسترش این قابلیت‌هاست و با هر نسخه جدید، مدل‌های بیشتری به این فهرست اضافه می‌شوند. بنابراین، لیستی که در ادامه می‌آید، یک تصویر لحظه‌ای است و کاربران باید همواره مستندات آخرین نسخه را برای اطلاع از جدیدترین قابلیت‌ها بررسی کنند.

لیستی از مدل‌های اصلی پشتیبانی‌نشده عبارتند از:

مدل‌های چندفازی پیچیده (اگرچه مدل VOF در نسخه‌های جدید به صورت بتا اضافه شده است).
مدل فاز گسسته (Discrete Phase Model – DPM).
مش دینامیک (Dynamic Mesh).

نکته بسیار مهم دیگر این است که شتاب‌دهی GPU عموماً برای شبیه‌سازی‌های سه‌بعدی (3D) طراحی شده و برای موارد دوبعدی (2D) پشتیبانی نمی‌شود.

دقت حل (Single vs. Double Precision)

عملکرد GPUها در محاسبات با دقت تکی (Single-Precision یا FP32) و دقت مضاعف (Double-Precision یا FP64) تفاوت چشمگیری دارد. بسیاری از کارت‌های گرافیک، به ویژه کارت‌های رده مصرف‌کننده (Gaming) و حتی برخی کارت‌های ورک‌استیشن، فاقد هسته‌های سخت‌افزاری بومی برای محاسبات FP64 هستند. این کارت‌ها برای اجرای حل با دقت مضاعف، عملیات FP64 را با استفاده از هسته‌های FP32 شبیه‌سازی می‌کنند که سرعت آن را به میزان قابل توجهی (تقریباً نصف) کاهش می‌دهد.

در مقابل، کارت‌های سرور رده بالا مانند NVIDIA H100 دارای هسته‌های اختصاصی FP64 هستند و محاسبات با دقت مضاعف را با سرعت بالا انجام می‌دهند. با این حال، حلگر GPU در فلوئنت حتی در حالت دقت تکی نیز پایداری و دقت بسیار خوبی از خود نشان می‌دهد. بنابراین، انتخاب استراتژیک دقت تکی (Single-Precision) برای بسیاری از مدل‌ها می‌تواند ارزش و عملکرد فوق‌العاده‌ای به همراه داشته باشد و هزینه‌ها را کاهش دهد.

ملاحظات لایسنسینگ

مدل لایسنسینگ برای اجرای حل روی GPU با CPU متفاوت است. در حالی که لایسنس CPU بر اساس تعداد هسته‌های پردازشی (Cores) محاسبه می‌شود، لایسنس GPU بر اساس تعداد پردازنده‌های چندجریانی (Streaming Multiprocessors – SMs) در کارت‌های NVIDIA یا واحدهای محاسباتی (Compute Units – CUs) در کارت‌های AMD کار می‌کند. قبل از سرمایه‌گذاری، حتماً این موضوع را با نماینده فروش Ansys بررسی کنید.

لازم به ذکر است که این محدودیت‌ها ثابت نیستند و با هر نسخه جدید Ansys Fluent در حال تکامل و بهبود هستند. بنابراین، همواره مستندات آخرین نسخه نرم‌افزار را برای اطلاع از جدیدترین قابلیت‌های پشتیبانی‌شده بررسی کنید.

جمع‌بندی و توصیه‌های نهایی

در این مقاله، جنبه‌های مختلف استفاده از GPU برای سرعت بخشیدن به شبیه‌سازی‌های Ansys Fluent را بررسی کردیم. مهم‌ترین نکات کلیدی به شرح زیر است:

استفاده از GPU در فلوئنت یک جهش عملکردی بزرگ برای شبیه‌سازی‌های پشتیبانی‌شده فراهم می‌کند و می‌تواند سرعت حل را از ۳ تا بیش از ۳۰ برابر افزایش دهد.
این فناوری علاوه بر افزایش سرعت، منجر به کاهش قابل توجه مصرف انرژی و هزینه‌های عملیاتی در مقایسه با کلاسترهای CPU می‌شود.
موفقیت در استفاده از GPU نیازمند درک عمیق از نیازمندی‌ها و محدودیت‌هاست. حافظه VRAM، پشتیبانی از مدل‌های فیزیکی، دقت حل و مدل لایسنسینگ، ملاحظات کلیدی هستند که باید به دقت بررسی شوند.

به عنوان یک توصیه نهایی و کلیدی، پیشنهاد می‌شود که کاربران قبل از سرمایه‌گذاری سنگین روی سخت‌افزار، حتماً مدل‌های (Typical) خود را بنچمارک کنند. با استفاده از سرویس‌های ابری (Cloud) یا سخت‌افزارهای موجود، مدل‌های خود را اجرا کرده تا از سازگاری آن‌ها با حلگر GPU و میزان افزایش سرعت واقعی در کاربرد خاص خود اطمینان حاصل کنید. این رویکرد ریسک سرمایه‌گذاری را کاهش داده و به تصمیم‌گیری آگاهانه کمک می‌کند.

در نهایت، با توسعه مداوم نرم‌افزار Ansys و پیشرفت سریع سخت‌افزارهای پردازشی، می‌توان با اطمینان گفت که GPUها به طور فزاینده‌ای به استاندارد اصلی برای شبیه‌سازی‌های مهندسی با کارایی بالا (HPC) تبدیل خواهند شد و افق‌های جدیدی را در تحلیل و طراحی مهندسی باز خواهند کرد.