في العصر الرقمي الذي نعيش فيه، التطورات التكنولوجية ثابتة. تم الإعلان عن أحد أحدث التطورات بواسطة OpenAI في 25 سبتمبر، عندما قامت الشركة صدر أن ChatGPT سيكون لديه القدرة على التعرف على الصور والصوت، مما يمثل خطوة مهمة أخرى في التفاعل بين البشر والآلات.
سيتمكن عشاق التكنولوجيا والعملات المشفرة قريبًا من الاعتماد على قدرة ChatGPT على تلقي الأوامر الصوتية. وذلك لأن OpenAI قامت ببناء نموذج تحويل النص إلى كلام الذي ينتج الصوت من عينات صغيرة تم إنشاؤها بواسطة ممثلين صوتيين محترفين. بالإضافة إلى ذلك، يستفيد نظام Whisper، وهو نظام التعرف على الكلام مفتوح المصدر الخاص بالشركة، من هذه الوظيفة الجديدة أيضًا.
تطبيقات هذه الأداة الجديدة واسعة: بدءًا من المساعدة على قراءة القصص قبل النوم، مرورًا بإعداد الوصفات، وحتى إعداد الخطب وشرح التعبيرات الشعبية.
ولن يقتصر الأمر على الصوت الذي سيفهمه ChatGPT. وكانت إمكانية تفسير الصور أو أجزاء معينة منها بمثابة إعلان كبير آخر. ومع ذلك، لم تتجاهل OpenAI التحديات المتعلقة بخصوصية الصورة. كانت الشركة شفافة في الإشارة إلى أن دقة ChatGPT ليست معصومة من الخطأ. ومع ذلك، تظل الأوصاف العامة للصور مفيدة، ومن الأمثلة على ذلك تعاون OpenAI السابق مع تطبيق Be My Eyes، الذي تم تطويره لمساعدة الأشخاص المكفوفين أو ضعاف البصر.
وبطبيعة الحال، فإن الابتكارات بهذا الحجم لا تأتي دون مخاوف. تدرك OpenAI مخاطر الاحتيال وانتحال الشخصية، لذلك قررت قصر الوظائف الصوتية على منصة الدردشة الخاصة بها. تم التركيز على حقيقة أن التسجيلات الصوتية يتم إنشاؤها بواسطة محترفين، وليس بواسطة المستخدمين. أمر مثير للفضول: يستخدم Spotify، على سبيل المثال، هذه الوظيفة بالفعل لترجمة ملفات البودكاست المشاركة إلى لغات مختلفة.
سيكون مستخدمو ChatGPT Plus وEnterprise أول من يختبر هذه الابتكارات في الأسابيع المقبلة، بينما ستكون الوظائف الصوتية متاحة على نظامي iOS وAndroid بشرط اشتراك المستخدم، وستكون وظيفة التعرف على الصور متاحة على جميع الأنظمة الأساسية.