بنیاد ویکیمدیا با همکاری شعبه آلمان خود، پروژهای جدید را معرفی کرده که هدف آن تبدیل دادههای ساختاریافته ویکیدیتا به فرمتی آسانتر برای جستوجو است. این پروژه که با نام Wikipedia Embedding شناخته میشود، میتواند به توسعهدهندگان هوش مصنوعی خارج از حوزه شرکتهای بزرگ فناوری کمک کند تا به دادههای دقیق و زمینهدار دسترسی داشته باشند. اطلاعات مربوط به نویسندگانی مانند داگلاس آدامز، نویسنده فقید کتاب «راهنمای مسافران کهکشان»، اکنون نهتنها در قالب صفحات وب بلکه در فرمتهایی مانند JSON برای ماشینها نیز قابل دسترسی است.
داگلاس آدامز، نویسنده فقید انگلیسی، بیشتر بهخاطر نگارش کتاب «راهنمای مسافران کهکشان» در سال ۱۹۷۹ شناخته میشود. اما اطلاعات بیشتری درباره او وجود دارد که در صفحه ویکیپدیای وی ذکر نشده است. چه بخواهید بدانید که نشانه تولد او «ماهی» بوده یا اینکه کتابهایش در کتابخانههای سراسر جهان با رشته عددی یکسان ۱۳۲۳۰۷۰۲ ثبت شدهاند، میتوانید به گوشهای کمتر دیدهشده از بنیاد ویکیمدیا به نام ویکیدیتا مراجعه کنید.
در آنجا، تصاویر، متنها، کلیدواژهها و سایر اطلاعات مرتبط با آدامز هم در قالب صفحه وب و هم در فرمتهایی برای ماشینها مانند JSON ذخیره شدهاند. اکنون ویکیدیتا در حال دریافت پایگاه دادهای جدید و سازگار با هوش مصنوعی است که دسترسی مدلهای زبانی بزرگ به اطلاعات را آسانتر میکند. این پایگاه داده از پروژه Wikipedia Embedding توسط شعبه آلمانی بنیاد ویکیمدیا، یعنی Wikimedia Deutschland، که مسئولیت ویکیدیتا را برعهده دارد، ارائه شده است.
لیدیا پینتشر، مدیر پورتفوی ویکیدیتا، به وبسایت The Verge گفت: «تیم مستقر در برلین طی یک سال گذشته با استفاده از یک مدل زبانی بزرگ، ۱۹ میلیون مدخل موجود در ویکیدیتا را از دادههای ساختاریافته به بردارهایی تبدیل کرده که زمینه و مفهوم اطلاعات را در اطراف هر مدخل ثبت میکنند. در این فرمت برداری، اطلاعات را میتوان مانند یک نمودار با نقاط و خطوط متصل تصور کرد، بهطوریکه آدامز به «انسان» و همچنین عنوان کتابهایش متصل میشود.»

هدف این پروژه، ایجاد فرصت برابر برای توسعهدهندگان هوش مصنوعی خارج از هسته ثروتمند شرکتهای بزرگ فناوری است. پینتشر گفت شرکتهایی مانند OpenAI و Anthropic منابع لازم برای برداریسازی ویکیدیتا را دارند، همانطور که تیم او این کار را انجام داده است. اما این دسترسی جدید به دادههای گزینششده در ویکیدیتا، بیشترین سود را برای گروههای کوچکتر دارد.
پینتشر در این رابطه گفت: «واقعاً برای من، موضوع این است که به آنها یک مزیت بدهیم و حداقل یک فرصت فراهم کنیم، بهتر نیست؟»
او به پروژه Govdirectory اشاره میکند که از دادههای گسترده ویکیدیتا که توسط داوطلبان گردآوری شده، برای اهداف مفید استفاده کرده است. این پلتفرم به کاربران اجازه میدهد تا حسابهای شبکههای اجتماعی و ایمیلهای مقامات عمومی سراسر جهان را پیدا کنند.
اکثر چتباتهای هوش مصنوعی، اولویت را به واژهها و موضوعات محبوب در اینترنت میدهند. تیم پروژه امیدوار است که دسترسی آسانتر به ویکیدیتا باعث شود سیستمهای هوش مصنوعی بهتر بتوانند موضوعات خاص و کمتر نمایانشده در اینترنت را بازتاب دهند. پینتشر گفت این روش میتواند راه بهتری برای وارد کردن اطلاعات به چتبات باشد. در مقایسه با «تولید حجم زیادی از محتوا و سپس انتظار برای نوبت بعدی آموزش مجدد چتبات که شاید آری یا نه، آنچه را که اضافه کردهایم را باید در نظر بگیریم».
فیلیپ سعده، مدیر پروژه هوش مصنوعی ویکیدیتا، به The Verge گفت: «در عمل، بردارها به سیستمهای هوش مصنوعی اجازه میدهند تا زمینه اطلاعات را علاوه بر خود اطلاعات، بهتر درک کنند.»
تیم پروژه از یک مدل ارائهشده توسط شرکت Jina AI برای تبدیل دادههای ساختاریافته ویکیدیتا که تا تاریخ ۱۸ سپتامبر ۲۰۲۴ (۲۷ شهریور ۱۴۰۳) ثبت شدهاند، از پایگاه داده بردار استفاده کرده است. شرکت DataStax وابسته به IBM نیز زیرساخت ذخیرهسازی پایگاه داده برداری را بهصورت رایگان در اختیار پروژه قرار داده است.
تیم پروژه منتظر دریافت بازخورد از توسعهدهندگانی است که از این پایگاه داده استفاده میکنند تا پس از آن، اطلاعات اضافهشده در یک سال گذشته را نیز بهروزرسانی کند. اگرچه پایگاه داده فعلی شامل اطلاعات کاملاً جدید اضافهشده در سال گذشته نیست اما سعده میگوید ویرایشهای کوچک یا اصلاحات جزئی در ویکیدیتا تأثیر زیادی بر مفید بودن پایگاه داده نخواهد داشت.
سعده در پایان توضیح داد: «در نهایت، برداری که ما محاسبه میکنیم، نوعی ایده کلی از یک آیتم است، بنابراین اگر ویرایش کوچکی در ویکیدیتا انجام شده باشد، خیلی مهم نخواهد بود.»
























دیدگاه ها