آیا هوش مصنوعی می‌تواند جایگزین ماوس و کیبورد شود؟

26 مرداد 1404 ساعت 14:08

امروزه ظهور هوش مصنوعی، چشم‌اندازی از آینده‌ای بدون نیاز به ابزارهای فیزیکی مانند ماوس و صفحه‌کلید را ترسیم کرده است. برای مثال، تصور کنید به یک هوش مصنوعی بگویید: «سلام ChatGPT، روی فیلد ورود رمز عبور که در یک پنجره در بخش پایین صفحه نمایش ظاهر شده، با دکمه چپ ماوس کلیک کن، عبارت XUS&(#($J را وارد کرده و کلید Enter را فشار بده.»

اگرچه این سطح از اتوماسیون بسیار جذاب به نظر می‌رسد، اما بسیاری از کاربران، همچنان ترجیح می‌دهند با استفاده از ماوس و صفحه‌کلید شخصی خود، این ۱۲ کاراکتر را به‌جای بیان کردن با صدای بلند در یک محیط عمومی، وارد نمایند. شاید به نظر برسد که مشاهده توانایی ChatGPT در شناسایی فرمان صوتی شما، رزرو کردن بلیط ارزان برای ۸ نفر جهت تماشای مسابقه فوتبال، و هدایت مستقیم شما به صفحه پرداخت، فوق‌العاده باشد. اما پرسش مهم این است که آیا واقعاً اعتماد می‌کنید تا رمز عبور خود را به ChatGPT بسپارید؟ یا ترجیح می‌دهید کنترل نهایی را با استفاده از ورودی‌های فیزیکی در دست بگیرید؟

پیش‌بینی می‌شود که نسخه ۵.۰ هوش مصنوعی ChatGPT به طور چشمگیری روش تعامل ما با AI را دگرگون سازد. اما در این مسیر، یک دغدغه مهم وجود دارد: اگر در گام نهایی که به‌شدت به صفحه‌کلید یا ماوس نیاز دارید، متوجه شوید که این امکان فراهم نیست، چه اتفاقی می‌افتد؟ این دقیقاً همان پرسشی بود که ذهن بسیاری از کاربران را پس از تماشای دموهای اغواکننده از ابزارهای AI شرکت‌هایی چون گوگل، OpenAI و Anthropic به خود مشغول کرده است. این پرسش کاملاً منطقی و بجاست.

این یک پرسش منطقی است

هوش مصنوعی، موضوع اصلی در رویداد Google I/O امسال بود. در پایان بخش اصلی کنفرانس، این موضوع روشن شد که گوشی‌های هوشمند اندرویدی هرگز دیگر همانند قبل نخواهند بود. به همین ترتیب، هر پلتفرمی که مدل Gemini بر آن پیاده‌سازی شود، از برنامه‌های Google Workspace مانند جیمیل گرفته تا گوگل مپس، دچار تحولی اساسی خواهد شد.

یکی از برجسته‌ترین نمایش‌ها در این رویداد، پروژه Mariner و پس از آن، پروژه تحقیقاتی جدید Astra بود. این پروژه‌ها را می‌توان به‌عنوان نسل بعدی دستیارهای مکالمه‌ای در نظر گرفت که به شما امکان می‌دهند تنها با صحبت کردن، کارهای واقعی و عملی را انجام دهید، بدون آنکه حتی یک بار نیاز به ضربه زدن به صفحه یا باز کردن صفحه‌کلید باشد. می‌توانید سؤالات خود را از یک راهنمای کاربری موجود در وب‌سایت یک برند، مستقیماً به ویدئوهای آموزشی در یوتیوب منتقل کنید، بدون نیاز به تکرار مجدد زمینه بحث. این رویکرد، مفهوم واقعی «حافظه» را برای هوش مصنوعی به واقعیت تبدیل کرده است. در مرورگر وب، این فناوری می‌تواند بلیط شما را رزرو کرده و به آخرین صفحه پرداخت برساند تا تنها تأیید کنید که تمام جزئیات صحیح است و سپس پرداخت را انجام دهید. این موضوع این پرسش را مطرح می‌کند که آیا در آینده‌ای نزدیک، با تمرکز AI بر تعاملات صوتی، ابزارهای ورودی دیجیتال مانند صفحه‌کلید و ماوس به تاریخ خواهند پیوست؟

چالش خطا

با تمام این پیشرفت‌ها، مسئله «خطا» همچنان به قوت خود باقی است. برای مثال، شناسایی یک هدفون از طریق Gemini Live با استفاده از دوربین و اشتراک‌گذاری صفحه امکان‌پذیر است. در حال حاضر، سیستم‌عامل‌های Windows و macOS ابزارهای کنترل صوتی برای پیمایش در محیط خود دارند که بخشی از مجموعه قابلیت‌های دسترسی‌پذیری محسوب می‌شود. در این ابزارها، تعدادی میانبر آماده برای سرعت‌بخشی به فرآیند وجود دارد و حتی می‌توانید میانبرهای شخصی‌سازی‌شده خود را بسازید. اما با ظهور مدل‌های پیشرفته نسل جدید هوش مصنوعی، بحث دیگر بر سر جایگزینی کامل صفحه‌کلید و ماوس برای تمامی کاربران است، نه فقط ارائه آن به‌عنوان یک فناوری کمکی.

آیا هوش مصنوعی می‌تواند جایگزین ماوس و کیبورد شود؟

تصور کنید قابلیتی شبیه به Computer Use در Claude با ورودی رهگیری‌شده با چشم در هدست Vision Pro اپل ترکیب شود. برای کسانی که با قابلیت Computer Use آشنا نیستند، باید گفت که این یک عامل هوش مصنوعی از شرکت Anthropic است که می‌تواند کامپیوتر را دقیقاً مانند انسان‌ها با نگاه کردن به صفحه، حرکت دادن نشانگر، کلیک روی دکمه‌ها و تایپ متن استفاده کند. حتی با وجود یک صفحه‌کلید مجازی شناور که برای دقت بیشتر به صورت خودکار تنظیم می‌شود، هنوز به تجهیزات حسگر حرکتی اضافی نیاز خواهید داشت.

حالا شرایطی را در نظر بگیرید که شما دستور خود را به صورت صوتی به Claude اعلام می‌کنید، میکروفون‌های داخلی آن را دریافت می‌کنند و فرآیند اجرا آغاز می‌شود و در گام پایانی، حرکات دست یا نگاه شما این فرآیند را تکمیل می‌کند. هدست Vision Pro ثابت کرده است که کنترل‌های مبتنی بر رهگیری نگاه می‌توانند با دقت بسیار بالایی عمل کنند. حتی خارج از محیط هدست، هوش مصنوعی صوتی می‌تواند روی یک رایانه معمولی نیز کار کند. شرکت Hume AI با همکاری Anthropic سامانه‌ای به نام Empathetic Voice Interface 2 (EVI 2) توسعه داده که فرمان‌های صوتی را به ورودی‌های کامپیوتری تبدیل می‌کند. عملکرد آن مشابه صحبت کردن با دستیار Alexa است، با این تفاوت که به‌جای سفارش کلم بروکلی، دستیار AI مفهوم دقیق گفته‌های شما را درک کرده و آن را به ورودی معادل صفحه‌کلید یا ماوس تبدیل می‌کند.

با وجود این ایده‌ی بسیار امیدوارکننده، باید سناریوهای واقعی را نیز در نظر گرفت. برای ویرایش دقیق فایل‌های چندرسانه‌ای، تغییرات جزئی در یک محیط کدنویسی یا پر کردن سلول‌های یک صفحه گسترده، همچنان صفحه‌کلید ضروری است. تصور کنید بگویید: «سلام جمینای، مبلغ ۴۸۹۵ دلار را در سلول D5 قرار بده و آن را با عنوان هزینه سفر هوایی برچسب‌گذاری کن.» بله این خوب است، اما خیلی‌ها ترجیح می‌دهند این عبارات را خودشان تایپ کنند.

آخرین گام، نه پایان

اگر دموهای AI Mode در موتور جستجوی گوگل یا عامل پروژه Mariner و Gemini Live را مشاهده کرده باشید، تصویری از آینده محاسبات صوتی در ذهنتان شکل گرفته است. تمام این پیشرفت‌ها تا زمانی شگفت‌انگیز هستند که نیازی به گفتن عباراتی مانند «به پنجره محاوره‌ای در گوشه بالا سمت چپ برو و روی دکمه آبی Confirm کلیک کن» پیش نیاید. این فرآیند بیش از حد خسته‌کننده است، حتی اگر تمام مراحل قبلی توسط AI به‌صورت خودکار انجام شده باشد.

و البته نباید مشکل بزرگ هوش مصنوعی را فراموش کنیم، چراکه این فناوری همچنان مستعد خطاهای ناگهانی است. Anthropic درباره قابلیت Claude Computer Use هشدار داده که «در این مرحله همچنان آزمایشی است، گاهی وقت‌گیر و مستعد خطا.» این وضعیت چندان متفاوت از عامل Operator شرکت OpenAI یا ابزار مشابهی که توسط تیم مرورگر Opera توسعه داده می‌شود، نیست. حذف کامل صفحه‌کلید و ماوس از یک رایانه مجهز به AI، مانند رانندگی با یک خودروی تسلا در حالت تمام‌خودران (FSD) است که فرمان و سایر کنترل‌ها حذف شده و تنها پدال ترمز و گاز باقی مانده‌اند. خودرو قطعاً شما را به مقصد خواهد رساند، اما در صورت وقوع یک رویداد غیرمنتظره، شما باید کنترل را به‌دست بگیرید.

در حوزه محاسبات، این بدان معناست که شما باید نقش عیب‌یاب را ایفا کنید. حتی اگر یک مدل هوش مصنوعی با تکیه کامل بر ورودی صوتی (که توسط میکروفون رایانه شما دریافت می‌شود) شما را تا آخرین گام، مثلاً هنگام نهایی کردن یک پرداخت، پیش ببرد، همچنان نیاز به تأیید دستی خواهد بود. حتی با وجود فناوری Passkeys، ناگزیر خواهید بود هویت خود را با وارد کردن رمز عبور، باز کردن یک برنامه احراز هویت یا لمس حسگر اثر انگشت تأیید کنید. هیچ توسعه‌دهنده سیستم‌عامل یا اپلیکیشنی، به‌ویژه در حوزه احراز هویت، به یک عامل AI اجازه نخواهد داد که به‌طور کامل این وظیفه حساس را انجام دهد. بنابراین، حتی با تمام این پیشرفت‌ها، نقطه شروع همچنان به ورودی فیزیکی وابسته است و ما دوباره به همان نقطه اولیه بازمی‌گردیم.

مجازی شویم؟ راهی طولانی در پیش است

جایگزینی صفحه‌کلید و ماوس رایانه با هوش مصنوعی یا هر فناوری نوین دیگری، در واقع بیشتر شبیه به جایگزینی یک واسط با واسطه‌ای دیگر است تا یک دگرگونی بنیادین. در نهایت، به نظر می‌رسد که دوباره به نوعی از همان ابزارهای آشنا بازمی‌گردیم. تحقیقات فراوانی درباره صفحه‌کلید و ماوس مجازی وجود دارد که برخی از آن‌ها به بیش از یک دهه پیش، یعنی قبل از انتشار مقاله مهم transformers که شتابی چشمگیر به حوزه AI داد، بازمی‌گردد.

در سال ۲۰۱۳، شرکت DexType یک برنامه کاربردی ارائه کرد که از سخت‌افزار کوچک Leap Motion برای فراهم‌کردن تجربه تایپ مجازی در هوا استفاده می‌کرد. این فناوری حتی به صفحه‌نمایش لمسی یا پروژکتور لیزری پیشرفته‌ای مانند Humane AI Pin نیاز نداشت. با وجود اینکه شرکت Leap Motion در سال ۲۰۱۹ از بین رفت، ایده اصلی آن ماندگار شد. شاید بتوان گفت متا تنها شرکتی است که مجموعه‌ای عملیاتی از سخت‌افزار و نرم‌افزار برای جایگزینی ورودی و خروجی در محاسبات، که آن را تعامل انسان و رایانه (HCI) می‌نامد، در اختیار دارد.

این شرکت مشغول توسعه پوشیدنی‌های مچی است که نوعی کاملاً متفاوت از کنترل‌های حرکتی را ممکن می‌سازند. به جای ردیابی حرکت فیزیکی انگشتان و دست‌ها، متا از فناوری‌ای به نام الکترومایوگرافی (EMG) استفاده می‌کند. این تکنولوژی، سیگنال‌های الکتریکی عصبی-عضلانی ایجادشده در مچ را به ورودی دیجیتال تبدیل می‌کند. در این سیستم، مکان‌نما و ورودی صفحه‌کلید نیز به صورت یکپارچه گنجانده شده‌اند.

متا ادعا می‌کند که این حرکات از فشردن کلید معمولی سریع‌تر هستند، زیرا این روش شامل انتقال مستقیم سیگنال‌های الکتریکی از دست به رایانه است، نه حرکت فیزیکی انگشتان. متا می‌گوید: «این روشی بسیار سریع‌تر برای اجرای دستوراتی است که همین امروز هنگام لمس برای انتخاب یک آهنگ در گوشی، کلیک‌کردن با ماوس یا تایپ روی صفحه‌کلید به دستگاه خود می‌فرستید.»

جایگزین‌ها کمتر، بسته‌بندی بیشتر

دو چالش اساسی در مسیر متا وجود دارد، صرف‌نظر از اینکه هوش مصنوعی در آن دخیل باشد یا خیر. مفهوم مکان‌نما همچنان باقی است و صفحه‌کلید نیز، اگرچه به شکل دیجیتال، هنوز وجود دارد. در واقع، تنها چیزی که تغییر می‌کند، جابه‌جایی بین نسخه‌های فیزیکی و مجازی این ابزارها است. جایگزینی که متا مطرح می‌کند، با توجه به ورود مدل‌های چندحالته Llama به این عرصه، بسیار آینده‌نگرانه به نظر می‌رسد.

از سوی دیگر، یک چالش عملی نیز وجود دارد: این پوشیدنی‌ها هنوز در مرحله آزمایشگاهی هستند و زمانی که به بازار عرضه شوند، حداقل در سال‌های اولیه قیمت بالایی خواهند داشت. حتی برنامه‌های ساده شخص‌ثالث مانند WowMouse نیز بر اساس اشتراک کار می‌کنند و محدودیت‌های سیستم‌عامل، کارایی آن‌ها را کاهش می‌دهد.

احتمالا اکثر کاربران نمی‌توانند تصور کنند که صفحه‌کلید ارزان‌قیمت ۱۰۰ دلاری خود را کنار بگذارند و به یک ابزار آزمایشی برای ورودی صوتی یا حرکتی روی بیاورند، به این امید که جایگزینی کامل برای ماوس و صفحه‌کلید در کارهای روزمره‌‌شان باشد. از همه مهم‌تر، مدت زمان زیادی طول خواهد کشید تا توسعه‌دهندگان ورودی‌های مبتنی بر زبان طبیعی را به طور کامل در برنامه‌های خود ادغام کنند، فرآیندی که بی‌تردید زمان‌بر و دشوار خواهد بود.

در حال حاضر، گزینه‌هایی مانند برنامه WowMouse وجود دارد که ساعت هوشمند شما را به مرکزی برای تشخیص حرکات انگشت و کف دست تبدیل می‌کند. اما این برنامه‌ها تنها می‌توانند جایگزین حرکات مکان‌نما و کلیک شوند و تجربه کامل یک صفحه‌کلید را ارائه نمی‌دهند. علاوه بر این، سیستم‌عامل‌ها به شدت با دسترسی چنین برنامه‌هایی به ورودی‌های صفحه‌کلید مخالفت خواهند کرد، چرا که یادآور تهدیدات امنیتی keyloggerها هستند.

در نهایت، با وجود پیشرفت چشمگیر در قابلیت‌های مکالمه‌ای و عامل‌محور مدل‌های AI، این فناوری‌ها هنوز برای تکمیل کار به کلیک ماوس یا چند ضربه کلید نیاز دارند و نمی‌توانند جایگزینی کامل باشند. علاوه بر این، انجام یک دستور طولانی با فرامین صوتی، در عمل از استفاده از یک میان‌بر صفحه‌کلید یا کلیک ماوس دشوارتر و وقت‌گیرتر است. به طور خلاصه، هوش مصنوعی می‌تواند وابستگی ما به ورودی فیزیکی را کاهش دهد، اما جایگزینی کامل آن، دست‌کم برای کاربران عادی، در آینده نزدیک بعید به نظر می‌رسد.