أمازون تكشف عن نموذج ذكاء اصطناعي يطور نطقه للكلمات ذاتياً

«BASE TTS» نجح في فهم طريقة التعبير عن المشاعر صوتياً

الأحد 18 فبراير 2024

كشفت مجموعة من الباحثين بقطاع أبحاث الذكاء الاصطناعي في أمازون Amazon AGI عن نموذج ذكي جديد، قادر على تعليم نفسه كيفية نطق كلمات ورموز وعبارات لم يتدرب عليها من قبل.

بحسب الورقة البحثية، فإن نموذج BASE TTS، والمتخصص في تحويل النصوص إلى كلام مسموع، تمكن من تطوير قدراته ذاتياً في التعامل مع كلمات غير إنجليزية، وفهم الرموز وعلامات الترقيم، إلى جانب قدرته على التعبير الصوتي عن المشاعر المختلفة.

وأشار فريق أمازون البحثي إلى تدريب النموذج على 100 ألف ساعة من حديث البشر بلغات مختلفة، 90% منها باللغة الإنجليزية، ثم تدريب نموذجين أصغر حجماً، أحدهما على 10 آلاف ساعة، والآخر على ألف ساعة فقط.

واختبر الباحثون النماذج الثلاث للتوصل إلى النموذج الأكثر إظهاراً لعلامات التعلم الذاتي وتطوير قدرات لم يتدرب عليها من خلال قواعد بيانات التدريب، وكان النموذج الأكثر تطوراً هو متوسط الحجم، المُدرب على 10 آلاف ساعة من الحديث المسموع.

وتتمثل القدرات، التي أذهلت الباحثين، في إدراك النموذج كيفية نطق عبارات يتطلب توصيل معناها الحديث بالهمس، وكذلك كيفية التنقل بين العبارات والجمل عند قراءة نص مزود بعلامات الترقيم الإنجليزية، إلى جانب ذلك استطاع نموذج BASE TTS التعامل باحترافية مع بعض الكلمات الفرنسية التي توسطت جملاً مكونة من كلمات إنجليزية.

ولا يزال النموذج في مرحلة البحث والتطوير، ولم يتم إطلاقه تجارياً للمستخدمين.

الأحد 18 فبراير 2024

إصابة الفنان عبدالله الرويشد بوعكة صحية

الرئيس التنفيذي لمؤسسة البترول يتفقد مشروع الإنتاج الجوراسي التابع لشركة نفط الكويت بحقلي «الروضتين» و«أم نقا»

مقالات ذات صلة

موظفو «أمازون» غير المطعمين بالكامل لن يحصلوا على إجازات مدفوعة عند الإصابة بكورونا

أمازون تخطط للعودة إلى سوق الهواتف الذكية بعد أكثر من عقد من فشل هاتفها الأول

«أمازون» تعرض شراء حقوق حزمة خاصة بالدوري الأمريكي لكرة القدم

الأكبر في وول ستريت.. قيمة «ميتا» تقفز 196 مليار دولار في جلسة واحدة

أمازون تعلن تسريح 16 ألف موظف إداري

«أمازون» تسرّح 14 ألف موظف في إطار إعادة هيكلة لتعزيز الكفاءة