حقّق مشروع OORT، المزوّد اللامركزي لحلول الذكاء الاصطناعي، نجاحًا لافتًا عبر مجموعة بيانات صوَر خاصة بتدريب النماذج، وذلك على منصة Kaggle التابعة لشركة Google، والمخصصة لمجتمعات علم البيانات وتعلم الآلة.
تم إطلاق مجموعة البيانات المعنونة Diverse Tools الخاصة بـ OORT في أوائل أبريل، ومنذ ذلك الحين تصدرت الصفحة الأولى ضمن عدة فئات على المنصة، منها الذكاء الاصطناعي العام، وتجارة التجزئة، والتصنيع، والهندسة.
وقال رامكومار سوبرامانيام، أحد المساهمين الأساسيين في مشروع OpenLedger القائم على الكريبتو والذكاء الاصطناعي، لموقع Cointelegraph:
"الظهور على الصفحة الأولى في Kaggle هو إشارة اجتماعية قوية، تُظهر أن مجموعة البيانات تلقى تفاعلًا حقيقيًا من مجتمعات علماء البيانات ومهندسي تعلم الآلة والممارسين في المجال."
انخراط مجتمعي لامركزي ونتائج مشجعة
أوضح ماكس لي، المؤسس والرئيس التنفيذي لـ OORT، أن شركته لاحظت "مؤشرات تفاعل مشجعة تؤكد الطلب المبكر وأهمية مجموعة البيانات"، مشيرًا إلى أن هذه البيانات تم جمعها من خلال نموذج لامركزي.
وأضاف لي:
"الاهتمام العضوي من المجتمع بما في ذلك الاستخدام الفعلي والمساهمات يثبت أن نماذج البيانات اللامركزية والمبنية على المجتمع مثل نموذج OORT قادرة على تحقيق توزيع واسع وتفاعل فعّال دون الاعتماد على وسطاء مركزيين."
وأشار لي إلى أن OORT تخطط خلال الأشهر القادمة لإطلاق مجموعات بيانات إضافية، بما في ذلك:
- أوامر صوتية داخل السيارات
- أوامر صوتية للمنازل الذكية
- مقاطع فيديو مزيّفة (deepfake) مُخصصة لتحسين قدرات التحقق من الوسائط المعززة بالذكاء الاصطناعي
تصدّر التصنيفات على Kaggle... مع تحفّظات
أكّد فريق Cointelegraph أن مجموعة بيانات OORT وصلت بالفعل إلى الصفحة الأولى على منصة Kaggle في عدة فئات رئيسية، قبل أن تفقد موقعها بعد تحديثين منفصلين في 6 و14 مايو، قد لا يكون لهما صلة مباشرة بالأداء.
ظهور مجموعة OORT على الصفحة الأولى في تصنيف "الهندسة" على Kaggle – المصدر: Kaggle
لكن رغم هذا الإنجاز، حذّر سوبرامانيام من اعتباره مؤشرًا نهائيًا على تبني السوق أو جودة المؤسسات:
"ما يميّز مجموعة بيانات OORT ليس فقط تصنيفها، بل مصدرها وطبقة الحوافز المرفقة بها."
وأوضح:
"على عكس المزوّدين المركزيين الذين يعتمدون على عمليات غامضة، يوفر النظام القائم على الشفافية والحوافز الرمزية قابلية التتبع والتقييم المجتمعي وفرص التحسين المستمر بشرط وجود حوكمة جيدة."
من جهته، علّق ليكس سوكولين، الشريك في شركة Generative Ventures لرأس المال الاستثماري المختص بالذكاء الاصطناعي، بأن النتائج ليست صعبة التكرار، لكنها تُظهر أن مشاريع الكريبتو يمكنها استخدام الحوافز اللامركزية لتنظيم نشاط اقتصادي ذي قيمة.
بيانات التدريب عالية الجودة: مورد نادر في عصر الذكاء الاصطناعي
وفقًا لتقديرات شركة الأبحاث Epoch AI، فإن بيانات النصوص البشرية المخصصة لتدريب الذكاء الاصطناعي ستنفد بحلول عام 2028. ويزداد الضغط إلى حد أن بعض المستثمرين يتوسطون حاليًا في صفقات تمنح شركات الذكاء الاصطناعي حقوق استخدام مواد محمية بحقوق النشر.
بينما بدأت الشركات باستخدام بيانات صناعية (ناتجة عن الذكاء الاصطناعي نفسه)، إلا أن البيانات البشرية ما تزال تُعتبر الخيار الأفضل من حيث الجودة والنموذج النهائي.
وفيما يخص الصور، أصبحت الأمور أكثر تعقيدًا، إذ بدأ الفنانون باستخدام أدوات مثل Nightshade لإفساد الصور عمدًا ومنع استخدامها في تدريب النماذج ما يُعرف بـ"تسميم البيانات".
تراجع أداء النماذج بعد تسميم الصور – المصدر: TowardsDataScience
وقال سوبرامانيام:
"نحن ندخل عصرًا ستصبح فيه بيانات الصور عالية الجودة أكثر ندرة."
وأشار إلى أن هذه الندرة تُعززها تقنيات مثل "حجب الصور" و"العلامات المائية العدائية" المصممة لتعطيل قدرة الذكاء الاصطناعي على التعلم:
"مجموعات البيانات مفتوحة المصدر تواجه تحديين مزدوجين: الكم والثقة."
وأضاف أن مجموعات البيانات اللامركزية، المؤكدة المصدر والمحفزة بالمجتمع، أصبحت أكثر أهمية من أي وقت مضى، مشيرًا إلى أنها قد تتحول إلى "ركائز أساسية في اقتصاد البيانات لضمان نزاهة الذكاء الاصطناعي وشفافيته."