شـبـكــة عـمّـــار
إخبارية - ترفيهية
- تعليمية



جديد الصور
جديد الأخبار
جديد المقالات


جديد الصور

جديد البطاقات

جديد الصوتيات

المتواجدون الآن


تغذيات RSS

2012-08-08 06:06

تحدثنا بالسابق عن مرحلة ال pre-processing ووظيفتها واليوم إنشاء الله سنذكر الخطوات الأساسية التي تندرج تحتها وهي:

1-تجميع البيانات واكتسابها (Data collection & acquisition):--

ومعناها جمع أشخاص معينين ذكور وإناث في أعمار متقاربة ونأخذ لهم بصمات صوتية وطبعا كما ذكرنا أنه يجب الحصول على هذه الإشارات بشكل يسمح للحاسب بأن يتعامل معها ..................

2- اكتشاف المسموع والغير مسموع (voiced & unvoiced detection):--

من الطبيعي أن يكون لدينا في الكلام أصوات مسموعة وغير مسموعة ...

عندنا مثلا حروف المد (ا , و , ي) نسميها حروفا مسموعة حيث ال amplitude لها اكبر ما يمكن

وبالمقابل لدينا حروف أخرى مثل ال (س , ش ) ال amplitude لها أقل ما يمكن وتسمى غير مسموعة أو بالأصح غير المجهورة ليس بسبب أنها لا تسمع ولكن بسبب أننا حينما نلاحظ شكل الموجات عند النطق بهذه الحروف قريبة جدا من حالة الnoise التي ذكرناها مسبقا ............

ولمعرفة الفرق بين هذه الأصوات المسموعة (Voiced) والغير مسموعة (Unvoiced) سنتطرق إلى مفهوم ال(Zero Crossing) لنشاهد الفرق بيت الموجات المسموعة وغير المسموعة بداية :..............



من الرسم نلاحظ الأصوات المسموعة (voiced):--

مقدار ال amplitude لها كبير جدا , والموجات أطول

مما يسبب أن عدد مرات إلتقاء أو تقاطع موجاتها مع الخط الأفقي ( horizontal access) قليل جدا "كما نلاحظ النقاط الحمراء في الرسم هي نقاط تقاطع الموجات مع الخط الأفقي " وهذا ما نسميه بمعدل ال zero crossing (الذي هو عبارة عن معدل تقاطع الموجات مع الخط الأفقي, وجاءت كلمة zero بسبب أن قيمة الموجة أو الإشارة عند التقاطع تكون مساوية للصفر )

حيث يمكننا أن نقول بأن معدل ال Zero Crossing منخفض في ال voiced speech ..

أما ال (unvoiced):--

قيمة ال amplitude لها قليل جدا ,والموجات أقصر مما يسبب أن معدل التقائها مع الخط الأفقي كبير وسريع وبالتالي فإن معدل ال zero crossing كبير هنا ......

3-تحديد بداية ونهاية الكلام المفيد (end -point-detection):-

طبعا عند النطق هناك فترات توقف عن الكلام لكن فترات التوقف هذه كما قلنا تحتوي على إشارات(signal) ضعيفة(noise) ,ومن ضمن الأشياء المستهدفة في ال معالجة (Processing) هي تقليل كمية الحسابات والتي تتم عن طريق التخلص من الإشارات الغير ضرورية مثل ال(noise) وهي تتم بواسطة filter متخصصة للتخلص من ال noise بطريقة معينة ...



4- (Time Wrapping):--يتضح معنى هذا المصطلح من خلال المثال التالي .....

مثلا لو كان لدينا مجموعة من الطالبات نطقوا كلمة واحدة مثلا (الحمد لله) عندما نأخذ تسجيل صوتي لكل واحدة منهن فإننا نلاحظ أن كل طالبة تنطق الكلمة في فترة مختلفة عن الأخرى كالتالي :



إذن الواجب علينا وضع جميع البصمات في طول واحد لكي نستطيع التعامل معها ككلمة واحدة دون الإخلال بالكلمة وطبعا هذه لها ميكانيزم معين وطريقة algorithm خاصة لهذه الأغراض ............

5-(Framming):--

... مثلا أثناء النطق بحرف معين فإنه خلال فترة زمنية بسيطة جدا ستكون أعضاء النطق في ثبات غير ملحوظ وهذه الفترة هي (20 ملي ثانية)

إذن الـ speech يحدث فيها ثبات كل (20 ملي ثانية ) وهي فترة صغيرة جدا تكاد لا تذكر , وبالتالي فإننا سوف نقسم الspeech إلى مجموعة من ال frames بحيث أن كل frame عبارة عن (20 ملي ثانية) ثم نأخذ من كل frame عينة (sample) تعبر عن خصائص هذا ال frame وذلك بدل أن نأخذ ال frame بكامله وهذا مما يقل الحسابات أثناء المعالجة ومما يقل أيضا من زمن المعالجة processing

مثلا عندي كلمة فإني سوف أقسمها إلى مجموعة frames حسب طولها وأبدأ بعد ذلك بأخذ العينات التي تعبر لي عن خصائص تلك الكلمة التي تم نطقها.... ليس تماما ولكن بشكل تقريبي ولكن ستكون هناك نسبة خطأ بسيطة ..........



6-(Windwing):--وبواسطة هذه المرحلة يتم التقليل من نسبة الخطأ التي قد تحدث نتيجة تقسيم موجات الكلام إلى frames وأخذ العينات.....

وطريقتها هي أنه يتم عمل window على الـframe الأول ثم آخر على الـframe الثاني وهكذا والهدف منها كما قلنا تقليل نسبة الخطأ

وتتقاطع هذه النوافذ الـwindows بنسبة 50% يعني نأخذ 50% من ال frame الأول و 50% من الثاني

7-(Modeling):-

المشكلة في الـ Speech Signal أنني لا أستطيع أن أجعل الحاسب يتعامل مع الـ Analog Signal ولذلك أقوم بتوصيف هذه الإشارات عن طريق جميع الملامح الثابتة( features ) لها وبذلك أكون عملت modeling لهذه الإشارات .....

8 - استخلاص الخصائص (Feature extraction) :

وهي ذات معنى مقارب للـ modeling فهي التعبير عن الصوت بواسطة مجموعة من الصفات وطبعا كل ما زادت الصفات التي أقوم باستخلاصها من الصوت كل ما يكون التعرف على الصوت أسهل ...وكان نسبة الخطأ في عملية التعرف أقل ..........

أما كيفية الحصول على هذه الـ feature فهي لها قصة طويلة ......


تعليقات 0 | إهداء 0 | زيارات 681


خدمات المحتوى
  • مواقع النشر :
  • أضف محتوى في Digg
  • أضف محتوى في del.icio.us
  • أضف محتوى في StumbleUpon
  • أضف محتوى في Google


تقييم
1.00/10 (3 صوت)


Powered by Dimofinf cms Version 3.0.0
Copyright© Dimensions Of Information Inc.