شیائومی مدل پیشرفته هوش مصنوعی صوتی خود را متن‌باز کرد

شیائومی گامی چشمگیر در حوزه هوش مصنوعی برداشته و مدل تشخیص صدای MiDashengLM-7B خود را به‌طور کامل به‌صورت متن‌باز منتشر کرده است. این مدل صرفاً یک ارتقاء جزئی نیست، بلکه سامانه‌ای با عملکرد بالا محسوب می‌شود که تاکنون در ۲۲ بنچمارک عمومی، رکوردهای تازه‌ای به ثبت رسانده است. این اقدام به توسعه‌دهندگان و شرکت‌ها امکان دسترسی مستقیم به قابلیت‌های پیشرفته تشخیص صوت و ادغام آن را بدون موانع مرسوم می‌دهد.

MiDashengLM-7B از نظر سرعت و بهره‌وری، عملکرد چشمگیری دارد. در ارزیابی‌ها، تأخیر در تولید اولین توکن تنها معادل ۲۵% از زمان لازم در راهکارهای مشابه بوده و این سامانه قادر است ۲۰ برابر فرآیند هم‌زمان بیشتری را مدیریت کند، آن هم بدون نیاز به حافظه بیشتر. در عمل، شرکت‌هایی که از این سیستم بهره می‌گیرند، با پاسخ‌دهی سریع‌تر و قابلیت گسترش بالاتر روبرو خواهند بود؛ مزیتی که آن را برای طیفی گسترده از کاربردها، از جمله اتوماسیون خدمات مشتری در مقیاس وسیع تا تحلیل بلادرنگ داده، مناسب می‌سازد.

هسته MiDashengLM-7B از ترکیب رمزگذار صوتی Dasheng ساخت شیائومی با رمزگشای خودبازگشتی Qwen2.5-Omni-7B Thinker شکل گرفته است. این طراحی یکپارچه به سامانه امکان می‌دهد تا در قالب یک چارچوب واحد، وظایف تشخیص گفتار، شناسایی صدای محیطی و تحلیل موسیقی را به‌صورت همزمان انجام دهد. استراتژی آموزش عمومی برای توصیف صوت، پایداری عملکرد را در مواجهه با ورودی‌های متنوع صوتی تضمین می‌کند و جایگاهی فراتر از سیستم‌های سنتی و تک‌منظوره برای آن فراهم می‌آورد.

شیائومی مدل پیشرفته هوش مصنوعی صوتی خود را متن‌باز کرد

این فناوری صرفاً در حد تئوری باقی نمانده است. پلتفرم Dasheng شیائومی در حال حاضر در بیش از ۳۰ کاربرد مختلف در محصولات خانه هوشمند و خطوط تولید خودروهای این شرکت مورد استفاده قرار گرفته است. از جمله پیاده‌سازی‌ها می‌توان به موارد زیر اشاره کرد:

سامانه‌های پیشرفته بیدارباش و دفاع پیرامونی
پایش مداوم صداهای غیرعادی برای بلندگوهای همراه
کنترل صداهای محیطی مبتنی بر حرکات دست برای دستگاه‌های اینترنت اشیاء
تشخیص دقیق‌تر خراش از طریق حالت نگهبان Xiaomi YU7

این موارد، ارزش تجاری بلافاصله و ملموس تلفیق هوش مصنوعی صوتی پیشرفته در محصولات مصرفی را به خوبی به نمایش می‌گذارند. برخلاف بسیاری از مدل‌های اختصاصی، MiDashengLM-7B تنها با داده‌های عمومی آموزش دیده و تحت مجوز باز Apache License 2.0 منتشر شده است. این رویه استفاده تجاری و دانشگاهی را بدون شروط محدودکننده میسر می‌سازد. شیائومی با ارائه جزئیات کامل درباره منابع داده، ترکیب ۷۷ مجموعه داده مجزا را معرفی کرده و گزارشی فنی جامع از روند توسعه مدل، از آموزش رمزگذار صوتی تا تنظیم نهایی، در اختیار قرار داده است.

برای شرکت‌ها و توسعه‌دهندگانی که خواهان بهره‌گیری از تازه‌ترین پیشرفت‌های هوش مصنوعی شیائومی هستند، به‌روزرسانی‌ها در وب‌سایت HyperOSUpdates.com قابل دسترسی است. همچنین، اپلیکیشن MemeOS Enhancer برای مدیریت بهتر دستگاه‌ها و دسترسی به امکانات پیشرفته‌تر، از طریق Play Store در دسترس قرار دارد.