شیائومی گامی چشمگیر در حوزه هوش مصنوعی برداشته و مدل تشخیص صدای MiDashengLM-7B خود را بهطور کامل بهصورت متنباز منتشر کرده است. این مدل صرفاً یک ارتقاء جزئی نیست، بلکه سامانهای با عملکرد بالا محسوب میشود که تاکنون در ۲۲ بنچمارک عمومی، رکوردهای تازهای به ثبت رسانده است. این اقدام به توسعهدهندگان و شرکتها امکان دسترسی مستقیم به قابلیتهای پیشرفته تشخیص صوت و ادغام آن را بدون موانع مرسوم میدهد.
MiDashengLM-7B از نظر سرعت و بهرهوری، عملکرد چشمگیری دارد. در ارزیابیها، تأخیر در تولید اولین توکن تنها معادل ۲۵% از زمان لازم در راهکارهای مشابه بوده و این سامانه قادر است ۲۰ برابر فرآیند همزمان بیشتری را مدیریت کند، آن هم بدون نیاز به حافظه بیشتر. در عمل، شرکتهایی که از این سیستم بهره میگیرند، با پاسخدهی سریعتر و قابلیت گسترش بالاتر روبرو خواهند بود؛ مزیتی که آن را برای طیفی گسترده از کاربردها، از جمله اتوماسیون خدمات مشتری در مقیاس وسیع تا تحلیل بلادرنگ داده، مناسب میسازد.
هسته MiDashengLM-7B از ترکیب رمزگذار صوتی Dasheng ساخت شیائومی با رمزگشای خودبازگشتی Qwen2.5-Omni-7B Thinker شکل گرفته است. این طراحی یکپارچه به سامانه امکان میدهد تا در قالب یک چارچوب واحد، وظایف تشخیص گفتار، شناسایی صدای محیطی و تحلیل موسیقی را بهصورت همزمان انجام دهد. استراتژی آموزش عمومی برای توصیف صوت، پایداری عملکرد را در مواجهه با ورودیهای متنوع صوتی تضمین میکند و جایگاهی فراتر از سیستمهای سنتی و تکمنظوره برای آن فراهم میآورد.
این فناوری صرفاً در حد تئوری باقی نمانده است. پلتفرم Dasheng شیائومی در حال حاضر در بیش از ۳۰ کاربرد مختلف در محصولات خانه هوشمند و خطوط تولید خودروهای این شرکت مورد استفاده قرار گرفته است. از جمله پیادهسازیها میتوان به موارد زیر اشاره کرد:
- سامانههای پیشرفته بیدارباش و دفاع پیرامونی
- پایش مداوم صداهای غیرعادی برای بلندگوهای همراه
- کنترل صداهای محیطی مبتنی بر حرکات دست برای دستگاههای اینترنت اشیاء
- تشخیص دقیقتر خراش از طریق حالت نگهبان Xiaomi YU7
این موارد، ارزش تجاری بلافاصله و ملموس تلفیق هوش مصنوعی صوتی پیشرفته در محصولات مصرفی را به خوبی به نمایش میگذارند. برخلاف بسیاری از مدلهای اختصاصی، MiDashengLM-7B تنها با دادههای عمومی آموزش دیده و تحت مجوز باز Apache License 2.0 منتشر شده است. این رویه استفاده تجاری و دانشگاهی را بدون شروط محدودکننده میسر میسازد. شیائومی با ارائه جزئیات کامل درباره منابع داده، ترکیب ۷۷ مجموعه داده مجزا را معرفی کرده و گزارشی فنی جامع از روند توسعه مدل، از آموزش رمزگذار صوتی تا تنظیم نهایی، در اختیار قرار داده است.
برای شرکتها و توسعهدهندگانی که خواهان بهرهگیری از تازهترین پیشرفتهای هوش مصنوعی شیائومی هستند، بهروزرسانیها در وبسایت HyperOSUpdates.com قابل دسترسی است. همچنین، اپلیکیشن MemeOS Enhancer برای مدیریت بهتر دستگاهها و دسترسی به امکانات پیشرفتهتر، از طریق Play Store در دسترس قرار دارد.
دیدگاه ها