بنیاد ویکیمدیا با همکاری شعبه آلمان خود، پروژه‌ای جدید را معرفی کرده که هدف آن تبدیل داده‌های ساختاریافته ویکی‌دیتا به فرمتی آسان‌تر برای جست‌وجو است. این پروژه که با نام Wikipedia Embedding شناخته می‌شود، می‌تواند به توسعه‌دهندگان هوش مصنوعی خارج از حوزه شرکت‌های بزرگ فناوری کمک کند تا به داده‌های دقیق و زمینه‌دار دسترسی داشته باشند. اطلاعات مربوط به نویسندگانی مانند داگلاس آدامز، نویسنده فقید کتاب «راهنمای مسافران کهکشان»، اکنون نه‌تنها در قالب صفحات وب بلکه در فرمت‌هایی مانند JSON برای ماشین‌ها نیز قابل دسترسی است.

داگلاس آدامز، نویسنده فقید انگلیسی، بیشتر به‌خاطر نگارش کتاب «راهنمای مسافران کهکشان» در سال ۱۹۷۹ شناخته می‌شود. اما اطلاعات بیشتری درباره او وجود دارد که در صفحه ویکی‌پدیای وی ذکر نشده است. چه بخواهید بدانید که نشانه تولد او «ماهی» بوده یا اینکه کتاب‌هایش در کتابخانه‌های سراسر جهان با رشته عددی یکسان ۱۳۲۳۰۷۰۲ ثبت شده‌اند، می‌توانید به گوشه‌ای کمتر دیده‌شده از بنیاد ویکی‌مدیا به نام ویکی‌دیتا مراجعه کنید.

در آنجا، تصاویر، متن‌ها، کلیدواژه‌ها و سایر اطلاعات مرتبط با آدامز هم در قالب صفحه وب و هم در فرمت‌هایی برای ماشین‌ها مانند JSON ذخیره شده‌اند. اکنون ویکی‌دیتا در حال دریافت پایگاه داده‌ای جدید و سازگار با هوش مصنوعی است که دسترسی مدل‌های زبانی بزرگ به اطلاعات را آسان‌تر می‌کند. این پایگاه داده از پروژه Wikipedia Embedding توسط شعبه آلمانی بنیاد ویکی‌مدیا، یعنی Wikimedia Deutschland، که مسئولیت ویکی‌دیتا را برعهده دارد، ارائه شده است.

لیدیا پینتشر، مدیر پورتفوی ویکی‌دیتا، به وب‌سایت The Verge گفت: «تیم مستقر در برلین طی یک سال گذشته با استفاده از یک مدل زبانی بزرگ، ۱۹ میلیون مدخل موجود در ویکی‌دیتا را از داده‌های ساختاریافته به بردارهایی تبدیل کرده که زمینه و مفهوم اطلاعات را در اطراف هر مدخل ثبت می‌کنند. در این فرمت برداری، اطلاعات را می‌توان مانند یک نمودار با نقاط و خطوط متصل تصور کرد، به‌طوری‌که آدامز به «انسان» و همچنین عنوان کتاب‌هایش متصل می‌شود.»

پلتفرم ویکیمدیا می‌خواهد سرچ را برای کاربران و هوش مصنوعی آسان‌تر کند - دیجینوی

هدف این پروژه، ایجاد فرصت برابر برای توسعه‌دهندگان هوش مصنوعی خارج از هسته ثروتمند شرکت‌های بزرگ فناوری است. پینتشر گفت شرکت‌هایی مانند OpenAI و Anthropic منابع لازم برای برداری‌سازی ویکی‌دیتا را دارند، همان‌طور که تیم او این کار را انجام داده است. اما این دسترسی جدید به داده‌های گزینش‌شده در ویکی‌دیتا، بیشترین سود را برای گروه‌های کوچک‌تر دارد.

پینتشر در این رابطه گفت: «واقعاً برای من، موضوع این است که به آن‌ها یک مزیت بدهیم و حداقل یک فرصت فراهم کنیم، بهتر نیست؟»

او به پروژه Govdirectory اشاره می‌کند که از داده‌های گسترده ویکی‌دیتا که توسط داوطلبان گردآوری شده، برای اهداف مفید استفاده کرده است. این پلتفرم به کاربران اجازه می‌دهد تا حساب‌های شبکه‌های اجتماعی و ایمیل‌های مقامات عمومی سراسر جهان را پیدا کنند.

اکثر چت‌بات‌های هوش مصنوعی، اولویت را به واژه‌ها و موضوعات محبوب در اینترنت می‌دهند. تیم پروژه امیدوار است که دسترسی آسان‌تر به ویکی‌دیتا باعث شود سیستم‌های هوش مصنوعی بهتر بتوانند موضوعات خاص و کمتر نمایان‌شده در اینترنت را بازتاب دهند. پینتشر گفت این روش می‌تواند راه بهتری برای وارد کردن اطلاعات به چت‌بات باشد.‌ در مقایسه با «تولید حجم زیادی از محتوا و سپس انتظار برای نوبت بعدی آموزش مجدد چت‌بات که شاید آری یا نه، آنچه را که اضافه کرده‌‌ایم را باید در نظر بگیریم».

فیلیپ سعده، مدیر پروژه هوش مصنوعی ویکی‌دیتا، به The Verge گفت: «در عمل، بردارها به سیستم‌های هوش مصنوعی اجازه می‌دهند تا زمینه اطلاعات را علاوه بر خود اطلاعات، بهتر درک کنند.»

تیم پروژه از یک مدل ارائه‌شده توسط شرکت Jina AI برای تبدیل داده‌های ساختاریافته ویکی‌دیتا که تا تاریخ ۱۸ سپتامبر ۲۰۲۴ (۲۷ شهریور ۱۴۰۳) ثبت شده‌اند، از پایگاه داده بردار استفاده کرده است. شرکت DataStax وابسته به IBM نیز زیرساخت ذخیره‌سازی پایگاه داده برداری را به‌صورت رایگان در اختیار پروژه قرار داده است.

تیم پروژه منتظر دریافت بازخورد از توسعه‌دهندگانی است که از این پایگاه داده استفاده می‌کنند تا پس از آن، اطلاعات اضافه‌شده در یک سال گذشته را نیز به‌روزرسانی کند. اگرچه پایگاه داده فعلی شامل اطلاعات کاملاً جدید اضافه‌شده در سال گذشته نیست اما سعده می‌گوید ویرایش‌های کوچک یا اصلاحات جزئی در ویکی‌دیتا تأثیر زیادی بر مفید بودن پایگاه داده نخواهد داشت.

سعده در پایان توضیح داد: «در نهایت، برداری که ما محاسبه می‌کنیم، نوعی ایده کلی از یک آیتم است، بنابراین اگر ویرایش کوچکی در ویکی‌دیتا انجام شده باشد، خیلی مهم نخواهد بود.»