نسخه جدید GPT-4o، که حدود یک سال پیش توسط شرکت OpenAI عرضه شد، اکنون با قابلیت جدیدی در تولید تصاویر با متن، جهشی بزرگ را تجربه کرده است. این پیشرفت به کاربران امکان میدهد تا با استفاده از دستورات متنی، تصاویر باکیفیت و بسیار دقیق ایجاد کنند و سپس با تعاملات محاورهای، آنها را مطابق با تصورات ذهنی خود تغییر دهند. دیگر خبری از نشانههای مبهم و حروف نامفهوم که در مدلهای قدیمیتر هوش مصنوعی مشاهده میشد، نیست.
برخلاف روشهای سنتی تولید تصویر که در آن کاربران فقط میتوانند یک دستور واحد را تغییر دهند، GPT-4o روشی کاملاً پویا را ارائه میکند. کاربران میتوانند با یک درخواست اولیه، مانند ایجاد تصویر یک گربه، شروع کنند و سپس با تعاملات گفتاری، جزئیات تصویر را مطابق با سلیقه خود تغییر دهند. برای مثال، میتوانند به تصویر گربه، یک کلاه کارآگاهی یا یک عینک اضافه کنند یا هر تغییر دیگری که در ذهن دارند، اعمال نمایند.

OpenAI با قابلیت جدید مدل GPT-4o، نمونههایی را به نمایش گذاشته است. کاربران میتوانند صحنهها را مرحله به مرحله خلق و تغییر دهند، به گونهای که عناصر مختلف از تصاویر متعدد را در یک خروجی یکپارچه و هماهنگ ادغام کنند. این مدل در تولید متنهای خوانا روی تابلوها یا اشیاء، عملکردی بینظیر ارائه میدهد که در مقایسه با خروجیهای نامفهوم مدلهای پیشین هوش مصنوعی، پیشرفتی چشمگیر محسوب میشود.
OpenAI گفته که برخی از تصاویر، منتخبی از بهترینها هستند؛ به عنوان مثال، «بهترین از میان ۲» یا «بهترین از میان ۸». اما با این وجود، نتایج همچنان قابل توجه هستند، به ویژه با رابط کاربری بسیار سادهای که ارائه شده است. GPT-4o حتی میتواند با استفاده از عکسهای شما به عنوان نقطه شروع، تغییرات را به صورت لایهبندی اعمال کند و صحنههایی را با ۱۰ تا ۲۰ شیء مدیریت کند، در حالی که مدلهای رقیب در مدیریت ۵ تا ۸ شیء با مشکل مواجه میشوند.
با وجود همه این تواناییها، GPT-4o هنوز از نقصهایی رنج میبرد. شرکت OpenAI به وجود برخی ویژگیهای نامتعارف مانند ناتوانی در برش دقیق تصاویر، توهمات بصری، مشکل در پردازش متون غیر لاتین و محدودیت در تشخیص بیش از ۲۰ شیء مختلف اذعان کرده است.
آنچه GPT-4o را از سایر مدلها متمایز میکند، قدرت بینظیر آن در خلق تصاویر پیچیده و سرشار از جزئیات، تنها با استفاده از زبان انگلیسی ساده است. این ابزار، بهویژه در طراحی پوسترهای تبلیغاتی و هنری، سطحی از دقت و انعطافپذیری را ارائه میدهد که مدلهای قدیمیتر حتی تصورش را هم نمیکردند.
دیدگاه ها