أطلقت شركة ميتا نموذجها الجديد “Spirit LM” المفتوح المصدر الذي يُعنى بمعالجة التحديات المتعلقة بالنماذج المتعددة الوسائط في الذكاء الاصطناعي.
ويهدف النموذج الجديد إلى تقديم تجربة صوتية طبيعية وأكثر تعبيرًا، مما يمثل خطوة متقدمة في تطوير الروبوتات الذكية القادرة على التواصل الصوتي بنحو أكثر تعقيدًا وواقعية.
ويعتمد نموذج “Spirit LM” على نموذج لغوي مُدرّب سابقًا يحتوي على 7 مليارات مَعلمة، ويتميز بقدرته على معالجة الصوت بنحو مختلف عن النماذج التقليدية التي تعتمد على تقنيات تعرّف الكلام تلقائيًا (ASR).
وتُشير “ميتا” إلى أن هذا النهج التقليدي يؤدي إلى فقدان الكثير من التعبيرات الطبيعية في الصوت. ولذلك، يعتمد “Spirit LM” على استخدام رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت لتجاوز هذه القيود، مما يمكّنه من إنتاج أصوات طبيعية، والتعلم من مهام جديدة تشمل تعرّف الكلام، وتحويل النص إلى صوت، وتصنيف الكلام.
وكشفت ميتا عن هذا النموذج عبر موقعها الرسمي، كما ذكرت أيضًا تفاصيل البحث الذي قاد إلى تطوير “Spirit LM”، بالإضافة إلى عينات من الأداء الصوتي للنموذج، مما يمنح فكرة واضحة عن قدراته المستقبلية.
ويتوفر النموذج الآن كمشروع مفتوح المصدر للمطورين والباحثين لاستخدامه وتطويره، ويُتوقع أن يُستخدم مستقبلًا ضمن تطبيقات ميتا مثل واتساب وإنستاجرام وفيسبوك، مما يتيح للمستخدمين التفاعل مع الذكاء الاصطناعي عبر محادثات صوتية طبيعية مليئة بالتعبيرات على غرار الوضع الصوتي المتقدم التي قدمته شركة OpenAI حديثًا.
نسخ الرابط تم نسخ الرابط
المصدر: البوابة العربية للأخبار التقنية