أمازون تكشف عن نموذج ذكاء اصطناعي يطور نطقه للكلمات ذاتياً
«BASE TTS» نجح في فهم طريقة التعبير عن المشاعر صوتياً
كشفت مجموعة من الباحثين بقطاع أبحاث الذكاء الاصطناعي في أمازون Amazon AGI عن نموذج ذكي جديد، قادر على تعليم نفسه كيفية نطق كلمات ورموز وعبارات لم يتدرب عليها من قبل.
بحسب الورقة البحثية، فإن نموذج BASE TTS، والمتخصص في تحويل النصوص إلى كلام مسموع، تمكن من تطوير قدراته ذاتياً في التعامل مع كلمات غير إنجليزية، وفهم الرموز وعلامات الترقيم، إلى جانب قدرته على التعبير الصوتي عن المشاعر المختلفة.
وأشار فريق أمازون البحثي إلى تدريب النموذج على 100 ألف ساعة من حديث البشر بلغات مختلفة، 90% منها باللغة الإنجليزية، ثم تدريب نموذجين أصغر حجماً، أحدهما على 10 آلاف ساعة، والآخر على ألف ساعة فقط.
واختبر الباحثون النماذج الثلاث للتوصل إلى النموذج الأكثر إظهاراً لعلامات التعلم الذاتي وتطوير قدرات لم يتدرب عليها من خلال قواعد بيانات التدريب، وكان النموذج الأكثر تطوراً هو متوسط الحجم، المُدرب على 10 آلاف ساعة من الحديث المسموع.
وتتمثل القدرات، التي أذهلت الباحثين، في إدراك النموذج كيفية نطق عبارات يتطلب توصيل معناها الحديث بالهمس، وكذلك كيفية التنقل بين العبارات والجمل عند قراءة نص مزود بعلامات الترقيم الإنجليزية، إلى جانب ذلك استطاع نموذج BASE TTS التعامل باحترافية مع بعض الكلمات الفرنسية التي توسطت جملاً مكونة من كلمات إنجليزية.
ولا يزال النموذج في مرحلة البحث والتطوير، ولم يتم إطلاقه تجارياً للمستخدمين.