جدیدترین مدل هوش مصنوعی اپل به جای تشخیص آن‌چه صرفاً گفته می‌شود، تمرکز خود را روی چگونگی ادای گفتار معطوف کرده که این موضوع از نظر انسانی و فنی بسیار حائز اهمیت است. در تازه‌ترین پژوهشی که اپل منتشر کرده، چارچوبی برای تحلیل گفتار معرفی شده که بر پایه آن، گفتار بر اساس ویژگی‌هایی قابل تفسیر مانند وضوح، یکنواختی، زیر و بمی صدا و دیگر ابعاد بررسی می‌شود. این خصوصیات دقیقاً همان‌هایی هستند که آسیب‌شناسان گفتار و زبان در هنگام ارزیابی گفتار افراد مبتلا به اختلالات عصبی یا بیماری‌های خاص مد نظر قرار می‌دهند. اکنون اپل در حال توسعه مدل‌هایی است که قادر به شناسایی این ویژگی‌ها در گفتار نیز باشند.

آموزش شنیدن و گوش دادن به مدل‌های هوش مصنوعی امروزی عمدتاً بر پایه صدای افراد سالم و با الگوی معمول آموزش داده شده‌اند، که این موضوع باعث می‌شود در مواجهه با گفتاری که با حالت طبیعی متفاوت است، عملکرد مطلوبی نداشته باشند. این یک خلأ اساسی در حوزه دسترس‌پذیری محسوب می‌شود. پژوهشگران اپل مدل‌هایی را طراحی کرده‌اند که به عنوان ابزارهای تحلیلی روی سامانه‌های گفتار موجود قرار می‌گیرند و با بهره‌گیری از یک مجموعه‌ داده شامل گفتارهای دارای ویژگی‌های غیرمعمول از افراد مبتلا به پارکینسون، ALS و فلج مغزی آموزش دیده‌اند. نکته مهم آنجاست که این مدل‌ها برای پیاده‌سازی متن استفاده نشده‌اند، بلکه برای سنجش نحوه ادای صدا و تحلیل آن بر اساس هفت بعد کلیدی طراحی شده‌اند که عبارتند از:

  • وضوح گفتار: درجه سهولت در درک محتوای گفتار
  • صامت‌های مبهم: میزان دقت در تلفظ صامت‌ها، نظیر صامت‌های مبهم یا کش‌دار
  • صدای خشن: کیفیت صوتی زمخت، فشرده یا گرفته
  • طبیعی بودن گفتار: میزان شباهت گفتار به الگوی گفتار عادی و روان
  • بلندی یکنواخت صدا: عدم وجود تنوع در شدت صدا
  • یکنواختی زیر و بمی: نبود تغییرات در زیر و بمی که به گفتاری تخت یا ربات‌گونه می‌انجامد
  • صدای همراه با تنفس: کیفیت صدای آمیخته با هوا که غالباً از بسته نشدن کامل چین‌های صوتی ناشی می‌شود

در مجموع، این مدل‌ها به‌گونه‌ای آموزش دیده‌اند که به‌جای صرفاً شنیدن کلمات، مانند یک متخصص بالینی به کیفیت گفتار توجه داشته باشند. در قالبی فنی‌تر، می‌توان گفت اپل با استفاده از پنج مدل شامل CLAP، HuBERT، HuBERT ASR، Raw-Net3 و SpICE ویژگی‌های صوتی را استخراج کرده و سپس مدل‌های تشخیصی سبک را برای پیش‌بینی ابعاد کیفیت صوت بر پایه آن ویژگی‌ها آموزش داده است.

هوش مصنوعی اپل در iOS 26 سه قابلیت برتر خواهد داشت

در نتیجه، این مدل‌ها در بیشتر ابعاد عملکرد قابل قبولی از خود نشان دادند، اگرچه دقت آن‌ها با توجه به ویژگی مورد ارزیابی و وظیفه محول‌شده متفاوت بود. یکی از جنبه‌های برجسته این تحقیق آن است که نتایج خروجی مدل به‌صورت قابل تفسیر ارائه می‌شود، که در هوش مصنوعی هنوز پدیده‌ای نادر به‌شمار می‌رود. به‌جای ارائه امتیاز اطمینان مبهم یا قضاوت مبتنی بر جعبه سیاه، این سامانه می‌تواند به ویژگی‌های صوتی مشخصی اشاره کند که منجر به طبقه‌بندی خاصی شده‌اند. این توانایی می‌تواند تأثیر قابل‌توجهی بر ارزیابی بالینی و روند تشخیص بیماری‌ها داشته باشد.

جالب آن‌که اپل استفاده از این فناوری را تنها به گفتار بالینی محدود نکرده است. تیم تحقیقاتی، مدل‌های خود را روی مجموعه‌داده‌ای از گفتارهای احساسی با عنوان RAVDESS نیز آزمایش کرده‌اند. علی‌رغم آن‌که این مدل‌ها آموزش خاصی برای تشخیص هیجانات صوتی ندیده‌اند، موفق به ارائه تحلیل‌هایی منطقی و شهودی شدند. برای نمونه، صدای عصبانی با یکنواختی کمتر در بلندی صدا همراه بود، صدای آرام کمتر خشن ارزیابی شد و صدای غمگین بیشتر یکنواخت به نظر می‌رسید. این فناوری می‌تواند زمینه‌ساز توسعه نسخه‌ای هوشمندتر و همدل‌تر از Siri باشد که نه فقط به کلمات، بلکه به حالت احساسی و ذهنی گوینده نیز واکنش نشان دهد و لحن خود را متناسب با آن تنظیم کند.