امروزه ظهور هوش مصنوعی، چشماندازی از آیندهای بدون نیاز به ابزارهای فیزیکی مانند ماوس و صفحهکلید را ترسیم کرده است. برای مثال، تصور کنید به یک هوش مصنوعی بگویید: «سلام ChatGPT، روی فیلد ورود رمز عبور که در یک پنجره در بخش پایین صفحه نمایش ظاهر شده، با دکمه چپ ماوس کلیک کن، عبارت XUS&(#($J را وارد کرده و کلید Enter را فشار بده.»
اگرچه این سطح از اتوماسیون بسیار جذاب به نظر میرسد، اما بسیاری از کاربران، همچنان ترجیح میدهند با استفاده از ماوس و صفحهکلید شخصی خود، این ۱۲ کاراکتر را بهجای بیان کردن با صدای بلند در یک محیط عمومی، وارد نمایند. شاید به نظر برسد که مشاهده توانایی ChatGPT در شناسایی فرمان صوتی شما، رزرو کردن بلیط ارزان برای ۸ نفر جهت تماشای مسابقه فوتبال، و هدایت مستقیم شما به صفحه پرداخت، فوقالعاده باشد. اما پرسش مهم این است که آیا واقعاً اعتماد میکنید تا رمز عبور خود را به ChatGPT بسپارید؟ یا ترجیح میدهید کنترل نهایی را با استفاده از ورودیهای فیزیکی در دست بگیرید؟
پیشبینی میشود که نسخه ۵.۰ هوش مصنوعی ChatGPT به طور چشمگیری روش تعامل ما با AI را دگرگون سازد. اما در این مسیر، یک دغدغه مهم وجود دارد: اگر در گام نهایی که بهشدت به صفحهکلید یا ماوس نیاز دارید، متوجه شوید که این امکان فراهم نیست، چه اتفاقی میافتد؟ این دقیقاً همان پرسشی بود که ذهن بسیاری از کاربران را پس از تماشای دموهای اغواکننده از ابزارهای AI شرکتهایی چون گوگل، OpenAI و Anthropic به خود مشغول کرده است. این پرسش کاملاً منطقی و بجاست.
این یک پرسش منطقی است
هوش مصنوعی، موضوع اصلی در رویداد Google I/O امسال بود. در پایان بخش اصلی کنفرانس، این موضوع روشن شد که گوشیهای هوشمند اندرویدی هرگز دیگر همانند قبل نخواهند بود. به همین ترتیب، هر پلتفرمی که مدل Gemini بر آن پیادهسازی شود، از برنامههای Google Workspace مانند جیمیل گرفته تا گوگل مپس، دچار تحولی اساسی خواهد شد.

یکی از برجستهترین نمایشها در این رویداد، پروژه Mariner و پس از آن، پروژه تحقیقاتی جدید Astra بود. این پروژهها را میتوان بهعنوان نسل بعدی دستیارهای مکالمهای در نظر گرفت که به شما امکان میدهند تنها با صحبت کردن، کارهای واقعی و عملی را انجام دهید، بدون آنکه حتی یک بار نیاز به ضربه زدن به صفحه یا باز کردن صفحهکلید باشد. میتوانید سؤالات خود را از یک راهنمای کاربری موجود در وبسایت یک برند، مستقیماً به ویدئوهای آموزشی در یوتیوب منتقل کنید، بدون نیاز به تکرار مجدد زمینه بحث. این رویکرد، مفهوم واقعی «حافظه» را برای هوش مصنوعی به واقعیت تبدیل کرده است. در مرورگر وب، این فناوری میتواند بلیط شما را رزرو کرده و به آخرین صفحه پرداخت برساند تا تنها تأیید کنید که تمام جزئیات صحیح است و سپس پرداخت را انجام دهید. این موضوع این پرسش را مطرح میکند که آیا در آیندهای نزدیک، با تمرکز AI بر تعاملات صوتی، ابزارهای ورودی دیجیتال مانند صفحهکلید و ماوس به تاریخ خواهند پیوست؟
چالش خطا
با تمام این پیشرفتها، مسئله «خطا» همچنان به قوت خود باقی است. برای مثال، شناسایی یک هدفون از طریق Gemini Live با استفاده از دوربین و اشتراکگذاری صفحه امکانپذیر است. در حال حاضر، سیستمعاملهای Windows و macOS ابزارهای کنترل صوتی برای پیمایش در محیط خود دارند که بخشی از مجموعه قابلیتهای دسترسیپذیری محسوب میشود. در این ابزارها، تعدادی میانبر آماده برای سرعتبخشی به فرآیند وجود دارد و حتی میتوانید میانبرهای شخصیسازیشده خود را بسازید. اما با ظهور مدلهای پیشرفته نسل جدید هوش مصنوعی، بحث دیگر بر سر جایگزینی کامل صفحهکلید و ماوس برای تمامی کاربران است، نه فقط ارائه آن بهعنوان یک فناوری کمکی.

تصور کنید قابلیتی شبیه به Computer Use در Claude با ورودی رهگیریشده با چشم در هدست Vision Pro اپل ترکیب شود. برای کسانی که با قابلیت Computer Use آشنا نیستند، باید گفت که این یک عامل هوش مصنوعی از شرکت Anthropic است که میتواند کامپیوتر را دقیقاً مانند انسانها با نگاه کردن به صفحه، حرکت دادن نشانگر، کلیک روی دکمهها و تایپ متن استفاده کند. حتی با وجود یک صفحهکلید مجازی شناور که برای دقت بیشتر به صورت خودکار تنظیم میشود، هنوز به تجهیزات حسگر حرکتی اضافی نیاز خواهید داشت.
حالا شرایطی را در نظر بگیرید که شما دستور خود را به صورت صوتی به Claude اعلام میکنید، میکروفونهای داخلی آن را دریافت میکنند و فرآیند اجرا آغاز میشود و در گام پایانی، حرکات دست یا نگاه شما این فرآیند را تکمیل میکند. هدست Vision Pro ثابت کرده است که کنترلهای مبتنی بر رهگیری نگاه میتوانند با دقت بسیار بالایی عمل کنند. حتی خارج از محیط هدست، هوش مصنوعی صوتی میتواند روی یک رایانه معمولی نیز کار کند. شرکت Hume AI با همکاری Anthropic سامانهای به نام Empathetic Voice Interface 2 (EVI 2) توسعه داده که فرمانهای صوتی را به ورودیهای کامپیوتری تبدیل میکند. عملکرد آن مشابه صحبت کردن با دستیار Alexa است، با این تفاوت که بهجای سفارش کلم بروکلی، دستیار AI مفهوم دقیق گفتههای شما را درک کرده و آن را به ورودی معادل صفحهکلید یا ماوس تبدیل میکند.

با وجود این ایدهی بسیار امیدوارکننده، باید سناریوهای واقعی را نیز در نظر گرفت. برای ویرایش دقیق فایلهای چندرسانهای، تغییرات جزئی در یک محیط کدنویسی یا پر کردن سلولهای یک صفحه گسترده، همچنان صفحهکلید ضروری است. تصور کنید بگویید: «سلام جمینای، مبلغ ۴۸۹۵ دلار را در سلول D5 قرار بده و آن را با عنوان هزینه سفر هوایی برچسبگذاری کن.» بله این خوب است، اما خیلیها ترجیح میدهند این عبارات را خودشان تایپ کنند.
آخرین گام، نه پایان
اگر دموهای AI Mode در موتور جستجوی گوگل یا عامل پروژه Mariner و Gemini Live را مشاهده کرده باشید، تصویری از آینده محاسبات صوتی در ذهنتان شکل گرفته است. تمام این پیشرفتها تا زمانی شگفتانگیز هستند که نیازی به گفتن عباراتی مانند «به پنجره محاورهای در گوشه بالا سمت چپ برو و روی دکمه آبی Confirm کلیک کن» پیش نیاید. این فرآیند بیش از حد خستهکننده است، حتی اگر تمام مراحل قبلی توسط AI بهصورت خودکار انجام شده باشد.

و البته نباید مشکل بزرگ هوش مصنوعی را فراموش کنیم، چراکه این فناوری همچنان مستعد خطاهای ناگهانی است. Anthropic درباره قابلیت Claude Computer Use هشدار داده که «در این مرحله همچنان آزمایشی است، گاهی وقتگیر و مستعد خطا.» این وضعیت چندان متفاوت از عامل Operator شرکت OpenAI یا ابزار مشابهی که توسط تیم مرورگر Opera توسعه داده میشود، نیست. حذف کامل صفحهکلید و ماوس از یک رایانه مجهز به AI، مانند رانندگی با یک خودروی تسلا در حالت تمامخودران (FSD) است که فرمان و سایر کنترلها حذف شده و تنها پدال ترمز و گاز باقی ماندهاند. خودرو قطعاً شما را به مقصد خواهد رساند، اما در صورت وقوع یک رویداد غیرمنتظره، شما باید کنترل را بهدست بگیرید.
در حوزه محاسبات، این بدان معناست که شما باید نقش عیبیاب را ایفا کنید. حتی اگر یک مدل هوش مصنوعی با تکیه کامل بر ورودی صوتی (که توسط میکروفون رایانه شما دریافت میشود) شما را تا آخرین گام، مثلاً هنگام نهایی کردن یک پرداخت، پیش ببرد، همچنان نیاز به تأیید دستی خواهد بود. حتی با وجود فناوری Passkeys، ناگزیر خواهید بود هویت خود را با وارد کردن رمز عبور، باز کردن یک برنامه احراز هویت یا لمس حسگر اثر انگشت تأیید کنید. هیچ توسعهدهنده سیستمعامل یا اپلیکیشنی، بهویژه در حوزه احراز هویت، به یک عامل AI اجازه نخواهد داد که بهطور کامل این وظیفه حساس را انجام دهد. بنابراین، حتی با تمام این پیشرفتها، نقطه شروع همچنان به ورودی فیزیکی وابسته است و ما دوباره به همان نقطه اولیه بازمیگردیم.
مجازی شویم؟ راهی طولانی در پیش است
جایگزینی صفحهکلید و ماوس رایانه با هوش مصنوعی یا هر فناوری نوین دیگری، در واقع بیشتر شبیه به جایگزینی یک واسط با واسطهای دیگر است تا یک دگرگونی بنیادین. در نهایت، به نظر میرسد که دوباره به نوعی از همان ابزارهای آشنا بازمیگردیم. تحقیقات فراوانی درباره صفحهکلید و ماوس مجازی وجود دارد که برخی از آنها به بیش از یک دهه پیش، یعنی قبل از انتشار مقاله مهم transformers که شتابی چشمگیر به حوزه AI داد، بازمیگردد.

در سال ۲۰۱۳، شرکت DexType یک برنامه کاربردی ارائه کرد که از سختافزار کوچک Leap Motion برای فراهمکردن تجربه تایپ مجازی در هوا استفاده میکرد. این فناوری حتی به صفحهنمایش لمسی یا پروژکتور لیزری پیشرفتهای مانند Humane AI Pin نیاز نداشت. با وجود اینکه شرکت Leap Motion در سال ۲۰۱۹ از بین رفت، ایده اصلی آن ماندگار شد. شاید بتوان گفت متا تنها شرکتی است که مجموعهای عملیاتی از سختافزار و نرمافزار برای جایگزینی ورودی و خروجی در محاسبات، که آن را تعامل انسان و رایانه (HCI) مینامد، در اختیار دارد.
این شرکت مشغول توسعه پوشیدنیهای مچی است که نوعی کاملاً متفاوت از کنترلهای حرکتی را ممکن میسازند. به جای ردیابی حرکت فیزیکی انگشتان و دستها، متا از فناوریای به نام الکترومایوگرافی (EMG) استفاده میکند. این تکنولوژی، سیگنالهای الکتریکی عصبی-عضلانی ایجادشده در مچ را به ورودی دیجیتال تبدیل میکند. در این سیستم، مکاننما و ورودی صفحهکلید نیز به صورت یکپارچه گنجانده شدهاند.

متا ادعا میکند که این حرکات از فشردن کلید معمولی سریعتر هستند، زیرا این روش شامل انتقال مستقیم سیگنالهای الکتریکی از دست به رایانه است، نه حرکت فیزیکی انگشتان. متا میگوید: «این روشی بسیار سریعتر برای اجرای دستوراتی است که همین امروز هنگام لمس برای انتخاب یک آهنگ در گوشی، کلیککردن با ماوس یا تایپ روی صفحهکلید به دستگاه خود میفرستید.»
جایگزینها کمتر، بستهبندی بیشتر
دو چالش اساسی در مسیر متا وجود دارد، صرفنظر از اینکه هوش مصنوعی در آن دخیل باشد یا خیر. مفهوم مکاننما همچنان باقی است و صفحهکلید نیز، اگرچه به شکل دیجیتال، هنوز وجود دارد. در واقع، تنها چیزی که تغییر میکند، جابهجایی بین نسخههای فیزیکی و مجازی این ابزارها است. جایگزینی که متا مطرح میکند، با توجه به ورود مدلهای چندحالته Llama به این عرصه، بسیار آیندهنگرانه به نظر میرسد.
از سوی دیگر، یک چالش عملی نیز وجود دارد: این پوشیدنیها هنوز در مرحله آزمایشگاهی هستند و زمانی که به بازار عرضه شوند، حداقل در سالهای اولیه قیمت بالایی خواهند داشت. حتی برنامههای ساده شخصثالث مانند WowMouse نیز بر اساس اشتراک کار میکنند و محدودیتهای سیستمعامل، کارایی آنها را کاهش میدهد.

احتمالا اکثر کاربران نمیتوانند تصور کنند که صفحهکلید ارزانقیمت ۱۰۰ دلاری خود را کنار بگذارند و به یک ابزار آزمایشی برای ورودی صوتی یا حرکتی روی بیاورند، به این امید که جایگزینی کامل برای ماوس و صفحهکلید در کارهای روزمرهشان باشد. از همه مهمتر، مدت زمان زیادی طول خواهد کشید تا توسعهدهندگان ورودیهای مبتنی بر زبان طبیعی را به طور کامل در برنامههای خود ادغام کنند، فرآیندی که بیتردید زمانبر و دشوار خواهد بود.
در حال حاضر، گزینههایی مانند برنامه WowMouse وجود دارد که ساعت هوشمند شما را به مرکزی برای تشخیص حرکات انگشت و کف دست تبدیل میکند. اما این برنامهها تنها میتوانند جایگزین حرکات مکاننما و کلیک شوند و تجربه کامل یک صفحهکلید را ارائه نمیدهند. علاوه بر این، سیستمعاملها به شدت با دسترسی چنین برنامههایی به ورودیهای صفحهکلید مخالفت خواهند کرد، چرا که یادآور تهدیدات امنیتی keyloggerها هستند.
در نهایت، با وجود پیشرفت چشمگیر در قابلیتهای مکالمهای و عاملمحور مدلهای AI، این فناوریها هنوز برای تکمیل کار به کلیک ماوس یا چند ضربه کلید نیاز دارند و نمیتوانند جایگزینی کامل باشند. علاوه بر این، انجام یک دستور طولانی با فرامین صوتی، در عمل از استفاده از یک میانبر صفحهکلید یا کلیک ماوس دشوارتر و وقتگیرتر است. به طور خلاصه، هوش مصنوعی میتواند وابستگی ما به ورودی فیزیکی را کاهش دهد، اما جایگزینی کامل آن، دستکم برای کاربران عادی، در آینده نزدیک بعید به نظر میرسد.
دیدگاه ها