شرکت چینی دیپ سیک مدل جدید هوش مصنوعی خود را با نام DeepSeek-V3-0324 با دسترسی رایگان و قابلیتهای جدید روانه بازار کرد.
استارتاپ چینی دیپ سیک (DeepSeek) آخرین مدل زبان خود را با نام DeepSeek-V3-0324 منتشر کرده است. این مدل تحت مجوز MIT برای استفاده شخصی و تجاری توسعه یافته و برای دانلود رایگان در سرویس Hugging Face در دسترس قرار گرفته است.
مدل جدید دیپ سیک با حجم ۶۴۱ گیگابایت روی سخت افزار مصرف کننده، از جمله مک استودیو با تراشه M3 Ultra اپل قابل اجرا است. این هوش مصنوعی با دارا بودن ۶۸۵ میلیارد پارامتر یکی از بزرگترین مدلهای هوش مصنوعی منبع باز محسوب میشود. به گفته نئووین، محقق هوش مصنوعی، مدل جدید دیپ سیک قادر به رقابت با Claude Sonnet 3.5 بوده و برخلاف Sonnet که به اشتراک پولی نیاز دارد، به صورت کاملا رایگان در دسترس کاربران قرار گرفته است.
DeepSeek-V3-0324 از معماری Mixture of Experts (MoE) بهره برده است. به عبارت دیگر، این هوش مصنوعی به جای فعال کردن تمامی پارامترها، تنها از مرتبطترین آنها استفاده میکند. بدین ترتیب این معماری این امکان را برای مدل جدید دیپ سیک فراهم میکند تا از ۶۸۵ میلیارد پارامتر، تنها ۳۷ میلیارد را در هر زمان فعال کند تا ضمن حفظ عملکرد، بار تقاضاهای محاسباتی را کاهش دهد.

علاوه بر موارد فوق، DeepSeek-V3-0324 دو نوآوری کلیدی را نیز در خود جای داده است. یکی از این نوآوریها فناوری Multi-Head Latent Attention یا MLA است که باعث بهبود حفظ زمینه در متون طولانی میشود. دیگری فناوری Multi-Token Prediction یا MTP است که این امکان را فراهم میکند مدل هوش مصنوعی چندین توکن را همزمان تولید کرده و بدین ترتیب خروجی مدل تا ۸۰ درصد افزایش یابد.
سبک ارتباطی DeepSeek-V3-0324 نیز دچار تغییر و تحول شده است. مدلهای قبلی دیپ سیک سبکی شبیه انسان و محاورهای داشتند اما نسخه جدید رسمیتر و تخصصیتر شده است. این ویژگی بیشتر برای تحقیق، کدنویسی و استفاده سازمانی ایده آل است. انتشار DeepSeek-V3-0324 تنور رقابت را در صنعت هوش مصنوعی داغتر کرده است. دیپ سیک با ارتقا مدل خود و با دسترسی رایگان عرصه را برای مدلهای پولی تنگتر کرده است.
دیدگاه ها