التعرف على الأصوات 3 - شبكة المعرفة بلس

المعرفة بلس
إخبارية - ترفيهية - تعليمية

الثلاثاء 1 يوليو 2025

جديد الصور	Desktop 1958 Desktop 1957 Desktop 1956 Desktop 1953 Desktop 1952 Desktop 1951 Desktop 1960 Desktop 1955 Desktop 1959 Desktop 1971
جديد الأخبار	منطقة اليورو تعود إلى انكماش الأسعار فى فبراير "النواب" المصري يمنع "عكاشة" من الحضور 10 جلسات فرنسا تدعو لاجتماع فوري لبحث انتهاك الهدنة في سوريا الذهب العالمى يرتفع 1% ويتجه لتسجيل أفضل شهر فى 4 أعوام سيناريوهات خلافة عباس على رأس السلطة الفلسطينية "بلحاج" يعود بقوة للمشهد السياسي في ليبيا رئيس "CIA" السابق: حدود الشرق الأوسط مهددة بالانهيار أبل تطرح هاتف iphone 5se بسعر أرخص من iphone 6 ممارسة الرياضة تساعد الطفل على التعلم بشكل أفضل مسح عنق الرحم بداية من سن 21 عامًا يكشف مرض السرطان مبكرًا
جديد المقالات	ابني سليط اللسان .. ما الحل ؟؟ أَحَبُّ إِلَى أَبِينَا مِنَّا ألا من كلاب لأطفالنا !! استغلال الأطفال في مصر.. ظاهرة تهدد المجتمع أقصُّ عليكم.. نبأ ابنتي أبناؤنا والقراءة أفلام الكارتون.. على ماذا يتربى أبناء المسلمين؟ يا لهـا من آية لو كان في القلوب حياة ! إعدام التربية الدينية ! اقرأ لطفلك.. يصبح قارئاً

جديد الصور

جديد البطاقات

جديد الصوتيات

004 - النساء . An-Nisa

المتواجدون الآن

تغذيات RSS

دروس في الذكاء الاصطناعي

التعرف على الأصوات وتمييز الأنماط ومعالجة الصور

2012-08-08 06:06

تحدثنا بالسابق عن مرحلة ال pre-processing ووظيفتها واليوم إنشاء الله سنذكر الخطوات الأساسية التي تندرج تحتها وهي:

1-تجميع البيانات واكتسابها (Data collection & acquisition):--

ومعناها جمع أشخاص معينين ذكور وإناث في أعمار متقاربة ونأخذ لهم بصمات صوتية وطبعا كما ذكرنا أنه يجب الحصول على هذه الإشارات بشكل يسمح للحاسب بأن يتعامل معها ..................

2- اكتشاف المسموع والغير مسموع (voiced & unvoiced detection):--

من الطبيعي أن يكون لدينا في الكلام أصوات مسموعة وغير مسموعة ...

عندنا مثلا حروف المد (ا , و , ي) نسميها حروفا مسموعة حيث ال amplitude لها اكبر ما يمكن

وبالمقابل لدينا حروف أخرى مثل ال (س , ش ) ال amplitude لها أقل ما يمكن وتسمى غير مسموعة أو بالأصح غير المجهورة ليس بسبب أنها لا تسمع ولكن بسبب أننا حينما نلاحظ شكل الموجات عند النطق بهذه الحروف قريبة جدا من حالة الnoise التي ذكرناها مسبقا ............

ولمعرفة الفرق بين هذه الأصوات المسموعة (Voiced) والغير مسموعة (Unvoiced) سنتطرق إلى مفهوم ال(Zero Crossing) لنشاهد الفرق بيت الموجات المسموعة وغير المسموعة بداية :..............

من الرسم نلاحظ الأصوات المسموعة (voiced):--

مقدار ال amplitude لها كبير جدا , والموجات أطول

مما يسبب أن عدد مرات إلتقاء أو تقاطع موجاتها مع الخط الأفقي ( horizontal access) قليل جدا "كما نلاحظ النقاط الحمراء في الرسم هي نقاط تقاطع الموجات مع الخط الأفقي " وهذا ما نسميه بمعدل ال zero crossing (الذي هو عبارة عن معدل تقاطع الموجات مع الخط الأفقي, وجاءت كلمة zero بسبب أن قيمة الموجة أو الإشارة عند التقاطع تكون مساوية للصفر )

حيث يمكننا أن نقول بأن معدل ال Zero Crossing منخفض في ال voiced speech ..

أما ال (unvoiced):--

قيمة ال amplitude لها قليل جدا ,والموجات أقصر مما يسبب أن معدل التقائها مع الخط الأفقي كبير وسريع وبالتالي فإن معدل ال zero crossing كبير هنا ......

3-تحديد بداية ونهاية الكلام المفيد (end -point-detection):-

طبعا عند النطق هناك فترات توقف عن الكلام لكن فترات التوقف هذه كما قلنا تحتوي على إشارات(signal) ضعيفة(noise) ,ومن ضمن الأشياء المستهدفة في ال معالجة (Processing) هي تقليل كمية الحسابات والتي تتم عن طريق التخلص من الإشارات الغير ضرورية مثل ال(noise) وهي تتم بواسطة filter متخصصة للتخلص من ال noise بطريقة معينة ...

4- (Time Wrapping):--يتضح معنى هذا المصطلح من خلال المثال التالي .....

مثلا لو كان لدينا مجموعة من الطالبات نطقوا كلمة واحدة مثلا (الحمد لله) عندما نأخذ تسجيل صوتي لكل واحدة منهن فإننا نلاحظ أن كل طالبة تنطق الكلمة في فترة مختلفة عن الأخرى كالتالي :

إذن الواجب علينا وضع جميع البصمات في طول واحد لكي نستطيع التعامل معها ككلمة واحدة دون الإخلال بالكلمة وطبعا هذه لها ميكانيزم معين وطريقة algorithm خاصة لهذه الأغراض ............

5-(Framming):--

... مثلا أثناء النطق بحرف معين فإنه خلال فترة زمنية بسيطة جدا ستكون أعضاء النطق في ثبات غير ملحوظ وهذه الفترة هي (20 ملي ثانية)

إذن الـ speech يحدث فيها ثبات كل (20 ملي ثانية ) وهي فترة صغيرة جدا تكاد لا تذكر , وبالتالي فإننا سوف نقسم الspeech إلى مجموعة من ال frames بحيث أن كل frame عبارة عن (20 ملي ثانية) ثم نأخذ من كل frame عينة (sample) تعبر عن خصائص هذا ال frame وذلك بدل أن نأخذ ال frame بكامله وهذا مما يقل الحسابات أثناء المعالجة ومما يقل أيضا من زمن المعالجة processing

مثلا عندي كلمة فإني سوف أقسمها إلى مجموعة frames حسب طولها وأبدأ بعد ذلك بأخذ العينات التي تعبر لي عن خصائص تلك الكلمة التي تم نطقها.... ليس تماما ولكن بشكل تقريبي ولكن ستكون هناك نسبة خطأ بسيطة ..........

6-(Windwing):--وبواسطة هذه المرحلة يتم التقليل من نسبة الخطأ التي قد تحدث نتيجة تقسيم موجات الكلام إلى frames وأخذ العينات.....

وطريقتها هي أنه يتم عمل window على الـframe الأول ثم آخر على الـframe الثاني وهكذا والهدف منها كما قلنا تقليل نسبة الخطأ

وتتقاطع هذه النوافذ الـwindows بنسبة 50% يعني نأخذ 50% من ال frame الأول و 50% من الثاني

7-(Modeling):-

المشكلة في الـ Speech Signal أنني لا أستطيع أن أجعل الحاسب يتعامل مع الـ Analog Signal ولذلك أقوم بتوصيف هذه الإشارات عن طريق جميع الملامح الثابتة( features ) لها وبذلك أكون عملت modeling لهذه الإشارات .....

8 - استخلاص الخصائص (Feature extraction) :

وهي ذات معنى مقارب للـ modeling فهي التعبير عن الصوت بواسطة مجموعة من الصفات وطبعا كل ما زادت الصفات التي أقوم باستخلاصها من الصوت كل ما يكون التعرف على الصوت أسهل ...وكان نسبة الخطأ في عملية التعرف أقل ..........

أما كيفية الحصول على هذه الـ feature فهي لها قصة طويلة ......

0 |

0 |

735

خدمات المحتوى

أدوات :
[إرسال لصديق]
[طباعة]
[حفظ بإسم]
[حفظ PDF]

مواقع النشر :

تقييم

7.11/10 (10 صوت)