مدلهای هوش مصنوعی Flux و Stable Diffusion و Ideogram 2.0 و Recraft V3 از مدلهای برجسته هوش مصنوعی برای تولید تصویر هستند.هرکدام از این مدلها که در ابزار هوش مصنوعی ساخت تصویر انگاره، برای ایجاد تصویر استفاده میشوند، نقاط قوت و ضعف خاص خود را دارند.در این مقاله قصد داریم ابتدا تاریخچهای مختصر درباره مدلهای مذکور بیان کنیم و سپس آنها را در زمینههای زیر با یکدیگر مقایسه کنیم:
- میزان مطابقت تصویر خروجی با متن پرامپت(توضیح متنی نوشتهشده توسط کاربر برای ایجاد تصویر)
- توانایی تولید عکس با سبکهای مختلف
- سرعت
- کاربردها
- میزان انعطاف برای اعمال کنترل روی عکس توسط کاربر و سفارشیسازی آن
- رعایت نکات لازم برای جلوگیری از ایجاد تصاویر نامناسب(تصاویر غیراخلاقی یا تصاویر دارای محتوای نامناسب)
- سهولت استفاده
- کیفیت تولید متن در عکس
- کیفیت ایجاد صورت و بدن انسان
- کاربردها و مصارف
معرفی مدلها و تاریخچه آنها
در این بخش چهار مدل معرفیشده در ابتدای مقاله را بهصورت مختصر معرفی کنیم و اشارهای به تاریخچه آنها نیز خواهیم داشت.
Flux
مدل تولید تصویر Flux AI که توسط Black Forest Labs توسعه یافته، مدلی پیشرفته محسوب میشود که تحول بزرگی در زمینه تولید تصاویر با هوش مصنوعی ایجاد کرده است. Flux 1.1 Pro آخرین نسخه این مدل است سرعت بسیار بالایی دارد و تصاویر باکیفیتی ایجاد میکند.
مدل Flux 1.1 Pro تصاویر را تا شش برابر سریعتر از نسخه قبلی تولید و درعینحال کیفیت بصری را نیز حفظ میکند.مدل مذکور در زمینه میزان مطابقت تصویر خروجی با متن پرامپت بسیار موفق است و تصاویر دقیق و منسجمی ایجاد میکند که اغلب با تصاویر ایجادشده به دست انسان قابلمقایسه هستند. Flux 1.1 Pro با معماری چندمنظوره خود، از طیف گستردهای از سبکهای ایجاد عکس(استایلها)و موضوعات پشتیبانی میکند و ابزاری مناسب برای طراحان تصویر دیجیتالی در حوزههای مختلف محسوب میشود. Flux 1.1 Pro در انگاره در دسترس است و علاوه بر این نسخه میتوانید از دو نسخه دیگر Flux یعنیFlux 1.0 schnell (نسخه پایه) و Flux 1.0 Dev (نسخه متوسط) نیز استفاده کنید. در کلFlux 1.1 Pro توانایی ایجاد تصاویری با کیفیت بالا را دارد و برای استفاده حرفهای و انجام پروژههای تخصصی مناسب است.
نسخه Flux 1.0 Dev که در اوت۲۰۲۴منتشر شده است برای ایجاد تصاویر اولیه یا تصاویر آزمایشی پیشنهاد میشود.
نسخه Flux 1.0 schnell هم گزینهای ارزانقیمت است؛ این نسخه سریعتر از دو نسخه دیگر عمل میکند و حتی پیشنهاد میکنیم برای انجام پروژههایی که باید سریع انجام شوند، ازآناستفاده کنید؛ اما کیفیت خروجیاش در حد و اندازه کیفیت خروجی دو نسخه دیگر نیست.هر سه نسخه مذکور Flux در اوت۲۰۲۴منتشر شدهاند
Stable Diffusion
مدل تولید تصویر Stable Diffusion، توسط Stability AI توسعه یافته است و بهعنوان یکی از مدلهای باز برای تولید تصاویر از متن شناخته میشود.جدیدترین نسخه این مدل یعنی Stable Diffusion 3.5، سه نسخه مختلف با پارامترهای متفاوت از ۲.۶ تا ۸ میلیارد دارد که برای کاربردهای مختلف طراحی شده است. این نسخهها قادر به تولید تصاویر باکیفیت بالا و سرعت بالا هستند و برای کاربران متنوع ازجمله پژوهشگران، هنرمندان و شرکتها طراحی شدهاند.
در انگاره سه نسخه Stable Diffusion قابلاستفاده هستند که شامل SDXL 1.0 (نسخه پایه)، stable image core (نسخه متوسط)و stable image ultra (نسخه حرفهای)میشود.
نسخه stable image ultra که ژوئن ۲۰۲۴ منتشر شده در حقیقت یکی از نسخههای Stable Diffusion 3.5 محسوب میشود و بالاترین کیفیت را دارد. مدلهای SDXL 1.0 و stable image core به ترتیب در جولای ۲۰۲۳ و اوت ۲۰۲۴ منتشر شدهاند.
Ideogram 2.0
مدل تولید تصویر Ideogram 2.0، توسط Ideogram AI توسعه یافته و در اوت ۲۰۲۴منتشر و برای ایجاد تصاویری با کیفیت بالا بر اساس متن ایجاد شده است.این مدل متون نوشتهشده به تمام زبانها را با دقت بالا به تصویر تبدیل میکند و تصویر خروجی آن مطابقت بالایی با محتوای متن نوشتهشده دارد. Ideogram 2.0 برای کاربردهایی مثل جمله طراحی گرافیک، برندینگ و تبلیغات، نتایج بسیار خوبی ارائه میدهد.تصاویر خروجی ایجادشده با این مدل کاملاً قابلکنترل هستند و میتوانید آنها را سفارشیسازی کنید.طبق بررسیها Ideogram 2.0 نسبت به دو مدل مطرح ساخت عکس Flux pro و Dall E3 برتری کامل دارد.
Recraft V3
مدل Recraft V3 که همین چند روز پیش در اکتبر۲۰۲۴منتشر شده، توسط استارتاپRecraft AI ایجاد شده است.این مدل نیز مفهوم پرامپت را بهخوبی میفهمد و تصاویر خروجیاش تا حدود زیادی مطابق آن ایجاد میکند.در تصاویر خروجی این مدل جزئیات ذکرشده در پرامپت،اعم از رنگ عناصر عکس و تعداد آنها و مکان قرارگیری آنها در عکس کاملاً رعایت میشود؛ در تصاویر ایجاد شده توسط آن از انسانها، آناتومی دقیق بدن انسان ازجمله شکل و تناسب دقیق انگشتان، دستها، پاها و تناسب دقیق سایر قسمتهای بدن را بهخوبی میبینیم.
Recraft V3تنها مدل دارایی قابلیت تبدیل پرامپتهای طولانی به تصویر است؛ تقریباً تمام مدلهای هوش مصنوعی ایجاد تصویر تنها توانایی تبدیل پرامپتهای کوتاه به تصویر را دارند؛ به همین دلیل Recraft V3 نسبت به سایر مدلها برتری محسوسی دارد
Recraft V3 در بنچمارکها پیشتاز بوده و مدلهای شناختهشدهای مانند MidJourney و SDXL و مدلهای ایجاد شده توسط OpenAIرا پشت سر گذاشته است؛ مدل مذکور در میان طراحان تصویر حرفهای محبوبیت زیادی دارد؛ زیرا میتواند تصاویر واقعی با جزئیات دقیق به وجود آورد و تصاویر خروجی آن کاملاً قابلکنترل و سفارشیسازی هستند.در حال حاضر Recraft V3 در انگاره در دسترس نیست؛ اما در آینده نزدیک به مدلهای طراحی عکس این سرویس افزوده خواهد شد.
مقایسه کلی
در این بخش ۴ ابزار معرفیشده را در زمینههای ذکرشده در ابتدای مقاله مقایسه میکنیم.
میزان مطابقت تصویر خروجی با متن پرامپت
Flux و Stable Diffusion هر دو در ایجاد تصاویر خروجی با مطابقت بالا با پرامپت عملکرد بسیار خوبی دارند؛ اما Recraft V3 و Ideogram 2.0 در این زمینه به سطحی بالاتر دست یافته و تطابق خروجی آنها با پرامپت بسیار بیشتر است؛ بنابراین Recraft V3 و Ideogram 2.0 برای مواردی که خروجی باید کاملاً مطابق با مفهوم پرامپت ایجاد شود، گزینه مناسبتری هستند.
در رابطه با مقایسه بین Flux و Stable Diffusion در این زمینه باید بگوییم Flux عملکرد بهتری دارد؛ مخصوصاً در هنگام تبدیل پرامپتهای طولانی و پیچیده به متن؛ این مدل تصاویر خروجی پرامپتهای پیچیده و طولانی را دقیقاً طبق آنچه خواسته شده، ایجاد میکند و تمام جزئیات ذکرشده را در خروجی اش به وجود میآورد.
متأسفانه نسخههای مختلف مدل Flux برخلاف سه مدل دیگر از قابلیتnegative prompt پشتیبانی نمیکند. قابلیت مذکور به شما اجازه میدهد درباره هر آنچه نمیخواهید در تصویر خروجی باشد، توضیح بنویسید؛ مثلاً اگر نمیخواهید رنگ یا عنصر خاصی در تصویر استفاده شود، میتوانید با نوشتن یک فرمان متنی از طریق قابلیت negative prompt از ایجاد آن در تصویر خروجی جلوگیری کنید.
ایجاد تصاویر با سبکهای مختلف
Stable Diffusion و Ideogram 2.0 در زمینه ایجاد تصاویر واقعگرایانه عملکرد بسیار خوبی دارند؛ بنابراین برای ایجاد تصاویر واقعگرایانه نسبت به Flux گزینه بهتری هستند؛ البته Flux نیز تصاویر واقعگرایانه خوبی تولید میکند، اما تمرکز آن بیشتر بر سرعت و کارایی است. Recraft V3 هم با داشتن گزینههای سفارشیسازی پیشرفته، تصاویر واقعگرایانه خوبی ایجاد میکند و در بسیاری از موارد از هر دو مدل Flux و Stable Diffusion پیشی میگیرد.
Recraft V3 ،Stable Diffusion و Ideogram 2.0 ،هر سه در زمینه خلق هنر دیجیتال بسیار عالی عمل میکنند Recraft V3 و Ideogram 2.0 به دلیل انعطافپذیری در ایجاد تصاویر و ساخت تصاویر غنی، محبوب هستند و توانایی ایجاد سبک هنری متنوع را دارند؛ از آبستره گرفته تا تصاویر با جزئیات بالا.
Stable Diffusion نیز در خلق هنر دیجیتال با جزئیات و زیبایی بالا بسیار خوب عمل میکند. Flux نیز در این زمینه عملکرد خوبی داردو در برخی از مواردجزئیات نسبت به سه مدل دیگر ارائه دهد.مدلFLuxدر رندرینگ دقیق تصاویر پیچیده عملکرد بسیار خوبی دارد و تصاویر باکیفیتی تحویل میدهد.در ضمن جزئیات زیادی در تصویر ایجاد میکند. Stable Diffusion هم میتواند نقاشیهایی با وضوح بالا ایجاد کند برای ایجاد نقاشیهای مختلف به کار گرفته شود.
Ideogram 2.0توانایی بینظیری در رندر کردن متن و ایجاد تصاویر با وضوح بالادارد.این مدل توانایی ایجاد عکس با انواع سبکهای هنری ازجمله واقعگرایانه، سهبعدی و طراحی را دارد و میتوان با آن عکسهای خلاقانه ساخت.
همانطور که گفتیم Recraft V3 میتواند آناتومی دقیق بدن انسان و بخشهای مختلف آن را شبیهسازی کند؛ بنابراین به نظر میرسد نسبت به سه مدل دیگر برای ایجاد نقاشی بهتر است؛ میتوان گفت این مدل برای ایجاد تصاویر سهبعدی و تصاویر شبهطرح نیز گزینه مناسبتری محسوب میشود.اگر بخواهیم این چهار مدل را ازنظر عملکردشان در زمینه ایجاد تصویر با سبکهای مختلف ردهبندی کنیم، Recraft V3 در رتبه اول، Ideogram 2.0 در رتبه دوم، Stable Diffusion در رتبه سوم و Flux در رتبه چهارم قرار میگیرد.
سرعت و کارایی
Flux ازنظر سرعت نسبت به سه مدل دیگر برتری دارد و برای انجام پروژههایی که سرعت در آنها اهمیت دارد، گزینه مناسبتری است. Stable Diffusion و Recraft V3 و Ideogram 2.0 سرعت متوسطی دارند و در ایجاد تصاویر تعادل بین سرعت و کیفیت را رعایت میکنند؛ سرعت این سه مدل بهاندازه Flux نیست، اما خروجیهای آنها اغلب با جزئیات و دقت بیشتری ارائه میشوند؛ بنابراین برای انجام پروژههایی که کیفیت اهمیت بیشتری دارد یا حداقل اهمیت سرعت و کیفیت یکسان است، گزینه بهتری هستند.
میزان قابلکنترل و قابل سفارشیسازی بودن تصاویر خروجی
Recraft V3 و Ideogram 2.0 بالاترین سطح سفارشیسازی و کنترل را در بین این چهار مدل ارائه میدهند؛ زیراکاربران آنها میتوانند پارامترهای مختلفی را برای دستیابی به خروجی دلخواهشان تنظیم کنند؛ این ویژگی، دو مدل مذکور را به ابزارهای ایدئال برای ایجاد تصاویر سفارشی خلاقانه تبدیل کرده است؛ البته Stable Diffusion نیز گزینههای سفارشیسازی قابلتوجهی ارائه میدهد و امکان اعمال تنظیمات دقیق روی تصویر خروجی را فراهم میکند؛ ماهیت متنباز این مدل هم سفارشیسازی خروجیهای آن را تا حدود زیادی امکانپذیر میکند.
Flux در زمینه برخورداری از گزینههای مختلف برای کنترل و سفارشیسازی در رتبه آخر قرار دارد؛ زیرا با وجود داشتن چند قابلیت برای سفارشیسازی، بیشتر برای استفاده آسان و ایجاد سریع تصویر بهینهسازی شده است.
البته در ابزار انگاره ابزارها و قابلیتهای لازم برای ویرایش و دستکاری خروجی هر چهار مدل،در دسترس کاربران قرار دارد؛ بنابراین برای تغییر و سفارشیسازی تصاویر خروجی هر یک از آنها، مشکلی ندارید.
رعایت نکات لازم برای جلوگیری از ایجاد تصاویر نامناسب
Stable Diffusion ،Recraft V3 و Ideogram 2.0 هر سه دارای ویژگیهای پیشرفتهای برای جلوگیری از ایجاد تصاویری با محتوای نامناسب هستند؛ سازندگان این سه مدل اطمینان دادهاند که محتوای تصاویر تولیدشده با آنها، مناسب و مطابق با دستورالعملهای اخلاقی باشد .Flux هم برای عدم ایجاد تصاویری با محتوای نامناسب آموزش دیده و بهینهسازی شده است؛ اما در این زمینه در سطح سه مدل دیگر نیست.
سهولت استفاده
مدلهایFluxوStable DiffusionوIdeogram 2.0بهسادگی قابلاستفاده هستند و برای ایجاد تصویر با آنها، تنها باید با یک کلیک، یکی از آنها را انتخاب کنید.در مورد Recraft V3 نیز به همین صورت خواهد بود.
کیفیت تولید متن
هر چهار مدل قادر به تولید متن با کیفیت بالا هستند؛ اما اگر بخواهیم آنها را در این زمینه رتبهبندی کنیم، ردهبندیمان به شکل زیر خواهد بود:
- Recraft V3
- Ideogram 2.0
- Flux
- stable Diffusion
Recraft V3 و Idegram 2.0 برای ایجاد متن در تصویر در پروژههای تخصصی مناسب هستند؛ زیرا بهطور ویژهای در زمینه تولید متن دقیق با کیفیت و وضوح بالا آموزش داده شدهاند؛ مخصوصاً Ideogram 2.0 که میتوان آن را ابزاری تخصصی برای رندر کردن متن نامید؛ در مورد Flux هم باید بگوییم این مدل متن را بهسرعت و با وضوح بالا در تصویر ایجاد میکند؛ عملکرد stable Diffusion نیز در زمینه ایجاد متن قابلقبول است؛ اما وجود اشتباهات کوچک در خروجیهای آن را نمیتوانیم نادیده بگیریم.
کیفیت ایجاد صورت و بدن انسان
رعایت آناتومی دقیق صورت و بدن انسان توسط مدلهای هوش مصنوعی ایجاد عکس اهمیت زیادی دارد؛ بیشتر مدلها برای ایجاد تعداد دقیق انگشتها و بهطورکلی پیادهسازی دقیقاندامها با مشکل مواجه میشوند؛ همانطور که گفتیم در این زمینه Idegram 2.0 نسبت به سه مدل دیگر برتری دارد؛ البته عملکرد Flux در پیادهسازی تصویر انسانهای در حال حرکت، تصاویر پرتره و حتی صحنههای پیچیده با حضور چند انسان، نیز بسیار خوب است؛ در مورد هم باید بگوییم که Stable Diffusion کمی در جایگذاری یا کپی کردن اندامها مشکل دارد.
Recraft V3 هم در پیادهسازی آناتومی دقیق بدن انسان عملکرد خوبی دارد.این مدل دستورات پیچیده مرتبط با حالات صورت، نسبتهای بدنوموقعیت اندامها در پرامپت را بهخوبی اجرا میکند؛ به همین دلیل میتواند پرترههای واقعی صحنههای دقیقی را به وجود آورد؛ طبق بررسیها عملکرد Recraft V3 در زمینه ایجاد صورت و بدن انسان از Flux و Stable Diffusion پیشی گرفته است.
کاربردها و مصارف
Flux:برای انجام پروژههایی که در آنها تحویل سریع، تطابق زیاد تصاویر خروجی و پرامپت و همچنین واقعگرایانه بودن تصاویر، اهمیت دارد، بهترین گزینه است
Stable Diffusion:برای تولید تصاویر با وفاداری بالا به پرامپت، تصاویر واقعگرایانه و تصاویر هنر دیجیتال پیچیده.گزینه مناسبی است؛ همچنین استفاده از آن برای پروژههایی که مناسببودن محتوای تصویر و قابلسفارشیسازیبودن تصاویر،اهمیت بالایی دارد، نیز پیشنهاد میشود.
Ideogram 2.0:این مدل برای ایجاد تصاویر با سبکهای مختلف، نسبت به سه مدل دیگر گزینه بهتری است.
Recraft V3:مدلی فوقالعاده در زمینهتعطیل کامل عکس خروجی با متن و ساخت عکس با سبکهای مختلفازجمله تصاویر واقعگرایانه محسوب میشود؛ در ضمن برای کاربرانی که به امکانپذیربودن سفارشیسازی گسترده و قابلکنترل بودن خروجی نهایی اهمیت میدهند،گزینهای ایدهآل است.
نتیجهگیری
بهطور خلاصه، هر یک از این مدلهایAIتصویرسازی،بررسیشده در این مقاله نقاط قوت و ضعفخود را دارندو برای انجام پروژههای خاصی مناسب هستند.اگر بخواهیم در جمعبندی و نتیجهگیری کوتاهی، آنها را در یک نگاه با یکدیگر مقایسه کنیم میتوانیم به موارد زیر اشاره کنیم:
Flux:سرعت بالا و ایجاد تصاویری با مطابقت بالا با پرامپت
Stable Diffusion:موفق در زمینه تولید تصاویر واقعگرایانه و هنر دیجیتال و جلوگیری از ایجاد تصاویری با محتوای نامناسب
Recraft V3:موفق در زمینه رعایت پرامپت، برخورداری از قابلیتهای مختلف برای سفارشیسازی و کنترل عکس و شبیهسازی دقیق آناتومی بدن انسان
Ideogram 2.0:گزینهای مناسب برای ایجاد تصاویر با سبکهای مختلف و ایجاد تصاویری که کاملاً باید با پرامپت مطابقت داشته باشند و سفارشیسازی آنها نیز امکانپذیر باشد.