مجمة جامعة تشرين لمبحوث والد ارسات العممية _ سمسمة العموم اليندسية المجمد )38( العدد )2( 26 Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series Vol. (38) No. (2) 26 )Endpoint د ارسة تحميمية لخوارزميتي MFCC( و ومدى تأثيرىما في نسب التعرف عمى الصوت * دعد يوسف الكعدي.25 / )تاريخ اإليداع / 8 ق ب ل لمنشر في )26 / 3 /3 ممخ ص يشتمؿ التعرؼ عمى الصوت قسميف أساسييف وىما التعرؼ عمى الكال والتعرؼ عمى المتكم حيث تعد عمميات التعرؼ ىذه مف أى التقنيات الحديثة وقد ت تطوير العديد مف األنظمة التي تختمؼ بالطرؽ المستخدمة في استخ ارج السمات وطرؽ التصنيؼ لتدع أنظمة تعرؼ مف ىذا النوع. اشتممت الد ارسة في ىذا البحث عمى القسميف السابقيف حيث ت تصمي نظا تعرؼ عمى المتكم وأوامره الصوتية واستخدا عدة خوارزميات متكاممة إلنجاز البحث. قمنا بإج ارء د ارسة تحميمية لخوارزمية Mel Frequency (MFCC ( Cepstral Coefficients المستخدمة في استخ ارج السمات وتمت د ارسة با ارمتريف خاصيف بيذه الخوارزمية ىما عدد المرشحات في بنؾ المرشحات وعدد السمات المأخوذة مف كؿ إطار وعالقة ىذيف البا ارمتريف ببعضيما ومدى تأثير قيمتيما عمى نسب التعرؼ. وت استخدا الشبكات العصبية ذات التغذية األمامية واالنتشار الخمفي لمخطأ Forwarding back propagation Neural Networks (FFBPNN)Feed كمصنؼ وحممنا أداء الشبكة لموصوؿ إلى أفضؿ خصائص ومكونات محققة عممية التعرؼ. كما تمت د ارسة خوارزمية Endpoint المستخدمة إل ازلة فت ارت الصمت وتأثيرىا في نسب التعرؼ عمى الصوت. الكممات المفتاحية: المتكم الكال السمات الشبكات العصبية. * قائم باألعمال/ معاون- قسم ىندسة الحاسبات والتحكم اآللي- كمية اليندسة الميكانيكية والكيربائية- جامعة تشرين- الالذقية- سورية. 9
د ارسة تحميمية لخوارزميتي MFCC( و )Endpoint ومدى تأثيرىما في نسب التعرؼ عمى الصوت الكعدي مجمة جامعة تشرين لمبحوث والد ارسات العممية _ سمسمة العموم اليندسية المجمد )38( العدد )2( 26 Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series Vol. (38) No. (2) 26 Analysis study about (MFCC and Endpoint) algorithms and the extent of their impact in voice recognition rates (Received 8 / / 25. Accepted 3 / 3 / 26) ABSTRACT Daed Youssef Alkody * Voice recognition includes two basic parts: speech and speaker recognition. These recognition processes consider as the most important processes of modern technologies, many systems has been developed that differ in the methods used to extract features and classification ways to support recognition systems of this type. The study was conducted in this research on the previous subject, where the system is designed to recognize the speaker and his voice orders and focus on several complementary algorithms to carry out the research. we conducted an analytical study on MFCC algorithm used in the extraction of features, and it has been studying two parameters the number of filters in the filters bank and the number of features that taken from each frame and the impact of these two parameters in the recognition rate and the relationship of these two parameters on each other. It was the use of feed forwarding back propagation neural networks performance analysis as characteristics and we analyze the performance of the network to gain access to the best features and components to the process of achieving recognition. And it has been studying Endpoint algorithm that used to remove periods of silence and its impact on voice recognition rates. Key Words: speaker, speech, feature, neural network. * Academic Assistant, Department of computer & control Engineering, Faculty of Mechanical & Electrical Engineering, Tishreen University, Lattakia, Syria 92
Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشريف العمو اليندسية المجمد )38( العدد )2( 26 مقدمة: الكال ىو عبارة عف موجة صوتية تحمؿ معمومات مف المتكم إلى المستمع لذا فإف معظ التطبيقات المطبقة عمى الصوت ىي عبارة عف تطبيقات إشارة رقمية حيث يت تحويؿ الموجة الصوتية )إشارة تشابيية( إلى إشارة رقمية يت معالجتيا فيما بعد وتكمف عادة معظ التطبيقات عمى الصوت في المجاالت التالية:[ ][2][3 ] التعرؼ عمى الكممة. - التعرؼ عمى المتكم. - 2 تحاوؿ خوارزميات التعرؼ عمى الكممة تمييز الكممات بشكؿ منفرد أما خوارزميات التعرؼ عمى المتكم فتعمؿ عمى تحديد ىوية الشخص المتكم حيث أف صوت الشخص يستخد بعد معالجتو كبصمة صوتية مميزة لكؿ شخص. يقس التعرؼ عمى الكال إلى المجاالت الثالثة التالية: كممة واحدة في كؿ مرة.isolated-word speech - مجموعة مف الكممات بفواصؿ زمنية.connected word recognition - 2 كال مستمر.continuous speech - 3 ت استخدا المجاؿ األوؿ في ىذا البحث. أىمية البحث وأىدافو: د ارسة خوارزمية MFCC ومدى تأثير تغير قي با ارمتريف المرشحات وعدد السمات المأخوذة مف كؿ إطار(عمى نسب التعرؼ. تحديد العالقة بيف البا ارمتريف السابقيف. خاصيف بيذه الخوارزمية )عدد المرشحات في بنؾ معرفة فعالية خوارزمية Mfcc عمى كؿ مف مرحمتي التعرؼ عمى المتكم والتعرؼ عمى الكال. تحميؿ أداء شبكات FFBPNN باعتماد تقنيتيف مختمفتيف في التدريب وىما طريقة انحدار الميؿ gradient.)scg( Scaled Conjugate Gradient وطريقة الميؿ الموحد المتدرج )descent algorithmgd) تحديد أىمية خوارزمية Endpoint في تحسيف نسبة التعرؼ. ط ارئق البحث ومواده: -خوارزمية إ ازلة فت ارت الصمت [5][6]:Endpoint Algorithm مف المشاكؿ التي تواجو عممية معالجة إشارة الكال ىي تحديد بداية النطؽ الحقيقي ونيايتو وذلؾ لتقميؿ حج الممفات الصوتية التي تؤدي إلى تقميؿ المعالجة المطموبة إلشارة الكال والحصوؿ عمى كفاءة أكبر في التمييز. تتمخص خوارزمية endpoint..2 ابؿمرحمتيف اآلتيتيف: حساب معدؿ السعة إلشارة الكممة. حساب العتبة المناسبة لتحديد إشارة الكال. - -حساب معدؿ السعة إلشارة الكال: إف السعة إلشارة الكال تتغير مع الزمف وتمثيؿ إشارة الكممة باالعتماد عمى معدؿ السعة لوقت قصير يعطي تمثيال مالئما إلشارة الكممة ألنو يعكس ىذه التغيي ارت بشكؿ واضح ويت إنجاز ىذه اؿمرحمة مف خالؿ الخطوات اآلتية: 93
د ارسة تحميمية لخوارزميتي MFCC( و )Endpoint ومدى تأثيرىما في نسب التعرؼ عمى الصوت الكعدي - ( size=22 بمقدار تداخؿ نرمز لألطر الناتجة بالرمز.S(n) اآلتية: تقسي مصفوفة الصوت إلى أطر Framming :حيث ت اعتماد حج ثابت لإلطار (Frame )overlapping=) وتكمف أىمية حدوث التداخؿ في تسييؿ االنتقاؿ بيف األطر - 2 معالجة األطر بنافذة ىامينغ :Hamming window تخضع نافذة ىامينغ لمعالقة اآلتية: حيث أف: (n) W: H مطاؿ العينة الجديد. n: ترتيب العينة في النافذة. N: الطوؿ الكمي لمنافذة ويساوي ىنا 22. أي أف النافذة بحج اإلطار. بيدؼ تنعي اإلشارة وتقميؿ االنقطاعات بيف األطر تت عممية معالجة األطر بنافذة S`(n) = (S (2) (n) * W(n)) - 3 األساسية. حساب معدؿ السعة لكؿ إطار )احتمالية الكال(: وتشتمؿ الخطوات التالية: نقؿ قي اإلطار مف المجاؿ الزمني إلى المجاؿ الترددي) ىامينغ S`(n) وفقا لمعالقة )xi بيدؼ الحصوؿ عمى مجموعة الترددات مختمفتيف[ 6 ]: حساب الموغاريت النيبري لقي اإلطار( log(xiمف ث حساب متوسط الموغاريتمات لقي اإلطار.lgg يت مقارنة القيمة lgg لكؿ إطار مع قيمة الصفر ليت حساب احتمالية الكال prsp () وفؽ عالقتيف Lgg< gg=exp(lgg); Lgg> prsp(i)=/(+exp(-lgg)); ) 3( prsp(i)=gg/(+gg); 2- -حساب العتبة المناسبة لتحديد إشارة الكال: يت تحديد قيمة العتبة threshold باالعتماد عمى أكبر قيمة احتمالية prspmax وأقؿ قيمة احتمالية prspmin لألطر وفؽ جممة المعادالت التالية [6]: I =.3 * (prspmax prspmin ) + prspmin I2 = 4 * prspmin threshold = MIN (I, I2) +.4 ) 4( 94
Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشريف العمو اليندسية المجمد )38( العدد )2( 26 ومف ث يت إ ازلة إطا ارت أو المحافظة عمييا بمقارنة قيمة معدؿ السعة لكؿ إطار مع قيمة العتبة األطر التي لدييا قيمة معدؿ سعة أصغر مف قيمة العتبة سيت حذفيا. 3- -خوارزمية [4][7][8]:MFCC تعد مف الطرؽ السائدة المستخدمة في استخ ارج السمات وذلؾ بسبب حساسية مرشحاتيا لخواص إشارة الصوت البشرية. تعتمد خوارزمية MFCCعمى التغي ارت المعروفة في عرض حزمة الترددات لألذف البشرية حيث أف لمرشحاتيا تباعدا خطيا عمى الترددات المنخفضة )األقؿ مف ىرتز( ولوغاريتميا عمى الترددات المرتفعة)أكبر مف ىرتز( األمر الذي يجعميا تستخد بشكؿ كبير في التعرؼ عمى الصوت والتقاط الصفات الرئيسية لمكال. Speech Signal After pre-processing stage Framing Windowing FFT MFCC Vector DCT Log Mel frequency filtering الشكل )( المخطط الصندوقي لخوارزمية MFCC[4] يبيف الشكؿ )( المخطط الصندوقي لخوارزمية MFCCويتضمف: تقسي مصفوفة الصوت إلى أطر ومعالجتيا بنافذة ىامينغ: ىما مرحمتيف ت توضيح مفيوميما سابقا. بعد عممية النوفذة سوؼ يت تطبيؽ تحويؿ فورييو السريع ( إطار وذلؾ مف أجؿ استخ ارج مركبات التردد لإلشارة. ترشيح الترددات بمقياس الميمي fast fourier transform (FFT مف أجؿ كؿ Mel frequency filtering :تعمؿ الصوتية عف طريؽ مجموعة مف المرشحات المثمثية المتباعدة بانتظا وفقا لمقياس )melody الذي يعبر عف عالقة تربط التردد المالحظ لنغمة صافية.[7] )5( يستطيع اإلنساف أف يميز التغي ارت الصغيرة في طبقة الصوت MFCC عمى ترشيح طيؼ اإلشارة mel الترددي)اختصار لكممة m بترددىا المقاس األصمي fوالموضحة بالعالقة )pitch) بشكؿ أفضؿ عند الترددات الصغيرة مف الترددات الكبيرة بالتالي فإف تضميف ىذا المقياس يجعؿ سماتنا تتطابؽ بشكؿ أقرب مف سمع اإلنساف[ 4 ]. إلعادة تحويؿ السمات. بالجدوؿ )(: يت بعد ذلؾ حساب الموغاريت mel scale spectrum ومف ث يستخد تحويؿ جيب التما المتقطع DCT mel scale spectrum الموغاريتمي إلى مجاؿ الزمف ونتيجة ىذا التحويؿ ىو الحصوؿ عمى شعاع اعتمادا عمى م ارحؿ خوارزمية ) 5( MFCC ت تحديد مجموعة مف البا ارمت ارت الالزمة لتنفيذ الخوارزمية مبينة 95
د ارسة تحميمية لخوارزميتي MFCC( و )Endpoint ومدى تأثيرىما في نسب التعرؼ عمى الصوت الكعدي جدول )( البا ارمت ارت الخاصة لخوارزمية MFCC[8] SN 2 3 4 5 6 property Frame size Frame length overlapping Number of filters Filter type Number features Value 22 sample 22/25=2ms frame (5%) -------------- traingular -------------- تحتاج ىذه الخوارزمية 6 با ارمت ارت لتنفيذىا ت تثبيت 4 بارمت ارت منيا والعمؿ عمى تغيير البا ارمتريف الباقييف ومناقشة تأثير تغير قيمتيما عمى نسبة التعرؼ. -خوارزمية [2]:K-means وىي خوارزمية عنقدة تستخد لتجميع البيانات وفؽ خصائصيا إلى k تجمع ووفقا لمبحث سيت انتخاب أطر مف كؿ لفظ صوتي ( كؿ إطار يتضمف مجموعة مف عينات الصوت( ليت استخداميا الحقا كأشعة دخؿ لمشبكة العصبية ت استخدا ىذه الخوارزمية ألف خوارزميةendpoint تسبب إ ازلة فت ارت الصمت لكؿ لفظ صوتي بحج بتات مختمؼ عف بقية األلفاظ الصوتية األمر الذي ينتج أشعة سمات بحجو مختمفة. 2- الشبكات العصبية ذات التغذية األمامية واالنتشار الخمفي لمخطأ Feed Forwarding back propagation [9][9]:Neural Networks (FFBPNN) إف الشبكات العصبية الصنعية قادرة عمى حؿ الكثير مف ميا التمييز المعقدة وىي تستخد في تطبيقات تمييز الكال ألىداؼ عامة حيث أنيا تعالج الجودة المنخفضة ومعطيات الضجيج واستقاللية المتحدث. تمتمؾ الشبكة العصبية مجموعة مف المكونات تبدأ بتحديد حج شعاع الدخؿ والطبقات )بما فييا عدد العصبونات لكؿ طبقة وتابع التفعيؿ لمعصبونات وعدد الطبقات(وتابع التدريب)معب ار عف التقنية المتبعة لتغيير األو ازف واالنحيا ازت لموصوؿ بالخرج إلى اليدؼ المرغوب( وبا ارمت ارت تابع التدريب بما فييا معامؿ التعم وعدد التك ار ارت وقيمة الخطأ. ت تحميؿ أداء شبكات FFBPNN باستخدا تقنيتيف مختمفتيف في التدريب وىما طريقة انحدار الميؿ gd وطريقة الميؿ الموحد المتدرج scg وسيت في كؿ تقنية د ارسة تحميمية الختيار قي خصائص الشبكة لموصوؿ إلى شبكة عصبية بخصائص مناسبة لعممية التعرؼ. تستخد شبكات FFBPNN تقنية انحدار الميؿ بشكؿ افت ارضي وىي تقنية تعتمد عمى تحديث أو ازف الشبكة واالنحياز في االتجاه الذي تتناقص فيو قيمة تابع الكمفة ولمقيا بذلؾ يت استخدا تابع التدريب traingd في حيف أف تقنية scg تعتمد عمى الدمج بيف تقنيتي الميؿ الموحد وليفربيرغ ماركورس) )Levenberg-Marquardt بحيث تقمؿ كمية الحسابات المطموبة في كؿ تك ارر لمحصوؿ عمى األو ازف واالنحيا ازت النيائية ولتطبيؽ ىذه التقنية يت استخدا تابع التدريب [][]. trainscg 96
Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشريف العمو اليندسية المجمد )38( العدد )2( 26 النتائج والمناقشة: ت العمؿ وفؽ الم ارحؿ اآلتية: بناء قاعدة البيانات. مرحمة بناء النظا : يوضح الشكؿ ) 2 (المخطط الصندوقي لمنظا المطبؽ. مرحمة التقيي. بناء قاعدة البياناث الخاصت بالمتكلمين وأوامرهم الصوتيت مرحلة المعالجة األولية EndPoint مرحلة استخالص السمات Mfcc مرحلة التقييم مرحلة التصنيف FFBNN مرحلة ضبط حجم أشعة السمات Kmeans -بناء قاعدة البيانات: الشكل )2( يوضح المخطط الصندوقي لمنظام المطبق ت تسجيؿ 576 لفظ صوتي تعود ألربع متكمميف تت اروح أعمارى بيف )28-9 عاما ( لفظ كؿ متكم 44 لفظ صوتي يعود كؿ 6 لفظ فييا لكممة )أمر صوتي( أي لفظ كؿ متكم 9 أوامر صوتية باستخدا برنامج Matlab2 مشكمة قاعدة بيانات ت استخدا 36 لفظ منيا كعينات تدريب و 26 كعينات اختبار. يبيف الجدوؿ ( 2( خصائص عينات الصوت المسجمة. خوارزمية SN 2 3 4 5 6 property Audio Sample rate Audio Sample Size Audio Sample type Audio Sample range Channel Length Value 25hz 6bit double -<=S<= Mono 3sec ت تخزيف ىذه العينات الصوتية بممفات ذات صيغة) wav (عمما أف اختيار 6 بت بدقة مضاعفة ومجاؿ [- +] تعادؿ مرحمة التقييس.Normalization 2 -مرحمة المعالجة األولية: ت اعتماد خوارزمية endpoint في ىذه المرحمة لمحصوؿ عمى إشارة الصوت المعالجة يبيف الشكؿ) 3 ( م ارحؿ endpoint مطبقة عمى المفظ الصوتي مرحمة تفصيمية ليذه الخوارزمية: جدول )2( خصائص عينات الصوت المسجمة down مف قبؿ أحد المتكمميف موضحة شكؿ اإلشارة الناتجة لكؿ 97
د ارسة تحميمية لخوارزميتي MFCC( و )Endpoint ومدى تأثيرىما في نسب التعرؼ عمى الصوت الكعدي الشكل) 3 ( ( a )إشارة الصوت قبل معالجتيا في المجال الزمني ) c (مصفوفة معدل السعة بعد مقارنتيا بجيد العتبة م ارحل خوارزمية Endpoint ( b (مصفوفة معدل السعة لكل إطار ( d( إشارة الصوت بعد إ ازلة فت ارت الصمت حيث نتج أف المتوسط الحسابي لعدد العينات التي ت إ ازلتيا مف كؿ لفظ صوتي يساوي 3 عينة )الحج الكمي إلشارة الصوت 3365 عينة( كما يظير الشكؿ) 3 (. 3 -خوارزمية :MFCC اعتمادا عمى م ارحؿ الخوارزمية وجدنا أنيا تمتمؾ 6 با ارمت ارت أساسية في البحث سنقو بتثبيت 4 بارمت ارت منيا والعمؿ عمى تغيير البا ارمتريف الباقييف وىما عدد المرشحات في بنؾ المرشحات وعدد السمات المأخوذة مف كؿ إطار ود ارسة عالقتيما ببعضيما ومدى تأثير تغير قيمتيما عمى تغيير نسبة التعرؼ حيث ت استخدا عينات االختبار وحساب نسبة التعرؼ عمى اختالؼ عدد المرشحات وعدد السمات وفؽ العالقتيف اآلتيتيف: نسبة التعرؼ عمى المتكم = نسبة التعرؼ عمى الكال = (6) الجدول )3( يبين تأثير تغير عدد المرشحات وعدد السمات عمى نسب التعرف لممتكمم N.Of MFCC For Each frame Id rate Numbers of filters in filter- bank 5 9 24 27 3 35 4 45 5 6 75.92 76.85 78.24 78.24 78.24 78.24 2 76.85 77.3 78.7 78.7 79.62 79.62 79.62 79.62 98
Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشريف العمو اليندسية المجمد )38( العدد )2( 26 42 8.9 8.94 86.57 86.57 55 8.9 8.94 86.57 86.57 يبيف الجدوؿ )3( أنو عند زيادة عدد المرشحات في بنؾ المرشحات ابتداء مف 5 وصوال إلى 35 نالحظ زيادة في نسب التعرؼ عمى اختالؼ عدد السمات المأخوذة مف كؿ إطار وعند زيادتيا أكثر مف 35 وصوال إلى 5 نالحظ ثبات نسب التعرؼ وعند زيادة عدد السمات في كؿ إطار ابتداء مف 6 وصوال إلى 42 نالحظ زيادة نسب التعرؼ وعند الزيادة القصوى في عدد السمات إلى 55 نالحظ ثبات نسب التعرؼ عمى أعظ قيمة تعرؼ وصمنا إلييا عند عدد سمات 42. الجدول )4( يبين تأثير تغير عدد المرشحات وعدد السمات عمى نسب التعرف عمى الكالم N.Of MFCC For Each frame Id rate Number of filters in filter- bank 6 2 42 55 5 78.24 82.4 83.33 83.33 9 79.6 83.33 84.25 84.25 24 8.55 85.8 9.74 9.74 27 8.55 84.72 88.88 88.88 3 8.55 84.72 88.88 88.88 35 79.62 83.79 4 79.62 83.79 45 79.62 83.79 5 79.62 83.79 87.3 يبيف الجدوؿ ( 4( بأنو عند زيادة عدد المرشحات في بنؾ المرشحات ابتداء مف زيادة في نسب التعرؼ عمى اختالؼ عدد السمات المأخوذة مف كؿ إطار وعند زيادتيا أكثر مف 5 وصوال إلى 24 نالحظ 24 وصوال إلى 35 نالحظ ثبات نسب التعرؼ عند عدد سمات يساوي 6 وانخفاضيا قميال عندما عدد السمات ( 2,42( وعند زيادتيا أكثر مف 35 وصوال إلى 5 نالحظ ثبات نسب التعرؼ وعند زيادة عدد السمات في كؿ إطار ابتداء مف 6 وصوال إلى 42 نالحظ زيادة نسب التعرؼ وعند الزيادة القصوى في عدد السمات إلى أعظ قيمة تعرؼ وصمنا إلييا عند عدد سمات 42. وفؽ الد ارسة حصمنا عمى أعمى نسبة تعرؼ قدرىا عند التعرؼ عمى المتكم. 55 نالحظ ثبات نسب التعرؼ عمى 9.74% عند التعرؼ عمى األوامر الصوتية و % لتحديد أىمية اختيار عدد المرشحات في بنؾ المرشحات ولتوضيح سبب ثبات نسب التعرؼ في بعض النتائج قمنا بتحميؿ مصفوفة السمات وتبيف أف مصفوفة السمات الناتجة عف بنؾ مرشحات مكوف مف ( 5,9,24,3 مرشح( تظير تبايف قي السمات األمر الذي سبب اختالؼ نسب التعرؼ أما مصفوفة السمات الناتجة عف بنؾ مرشحات مكوف مف ( 35,4,45,5( مرشح تظير تقارب في قي السمات كثي ار األمر الذي أعطى نسب تعرؼ متقاربة جدا الشكؿ )4(. 99
قيمة السمة قيمة السمة د ارسة تحميمية لخوارزميتي MFCC( و )Endpoint ومدى تأثيرىما في نسب التعرؼ عمى الصوت الكعدي (a( مصفوفة السمات الناتجة عف بنؾ مرشحات) 3-24-9-5 ( الشكل )4( رقم السمة b( مصفوفة السمات الناتجة عف بنؾ مرشحات) 5-45-4-35( اختالف قيم مصفوفة السمات باختالف بنك المرشحات في خوارزمية MFCC رقم السمة إليجاد العالقة بيف عدد السمات وعدد المرشحات قمنا بتغيير عدد السمات تدريجيا مف أجؿ كؿ بنؾ مرشحات عمى حدا لموصوؿ إلى عالقة بيف عدد السمات وعدد المرشحات فتبيف لدينا مايمي: جدول )5( تغير نسبة التعرف مع تغير عدد السمات وتأثير زيادة عدد السمات < عدد المرشحات Number of filters 5 Recognition Number rate of features 76.9 6 Number of filters 9 Recognition Number rate of features 76.55 6 Number of filters 24 Recognition Number rate of features 6 Number of filters 27 Recognition Number rate of features 6 76.9 2 76.65 2 2 78.57 2 4 8.5 8 8.74 23 86.5 26 9 8.5 25 8.74 25 86.5 35 25 8.5 35 8.74 35 86.5 4 42 8.5 42 8.74 42 86.5 5 يتبيف مف الجدوؿ السابؽ أنو عند اختيار عدد سمات يقارب عدد المرشحات فإننا نحصؿ عمى أكبر نسبة تعرؼ وبعد ذلؾ ميما زدنا عدد السمات لتصبح أكبر مف عدد المرشحات فإنو تثبت نسبة التعرؼ وعند تحميؿ مصفوفة السمات الناتجة عف اختيار 42 سمة مف اإلطار وعدد مرشحات 5 مرشح نتج الشكؿ) 4 (: 2
قيمة السمة قيمة السمة قيمة السمة Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشريف العمو اليندسية المجمد )38( العدد )2( 26 4-4 الشكل )5( يبيف الشكؿ ( 5( أف مصفوفة السمات الناتجة ىي مصفوفة بقي مخالفة لمصفر بعدد يساوي عدد المرشحات وقي مساوية لمصفر لباقي قي المصفوفة األمر الذي يعني عد أىمية اختيار عدد سمات أكبر مف عدد المرشحات. مرحمة توحيد أشعة السمات: رقم السمة مصفوفة السمات الناتجة عن اختيار 5 مرشح و 42 سمة يوضح الشكؿ ( 6( مصفوفة السمات الناتجة عف خوارزمية MFCC وشعاع السمات المستخد في مرحمة التصنيؼ بعد انتخاب أطر وفؽ خوارزمية k-means ليت استخداميا كدخؿ لمشبكة العصبية. الشكل) 6 ( يوضح 5-4 مرحمة التصنيؼ: -5-4 تقنية انحدار الميؿ :gd )b( )a( K-means مصفوفة السمات بعد a( ( - التعم.. رقم السمة MFCC السمات الناتجة عن مرحمة ) b (مصفوفة تحديد قيمة معامؿ التعم a :تمت المقارنة بيف قيمتيف ىما ).-,35( يبيف الشكؿ) 7 ( أف اختيار معامؿ التعم رقم السمة.35 سبب اقت ارب الخرج مف اليدؼ المرغوب أكثر مف معامؿ اليدؼ المرغوب )b( معامل التعمم. عصبون لمطبقة الخفية معدل التعمم.35 الشكل )7( تحميل أداء الشبكة في الحالة االولى )a 2
د ارسة تحميمية لخوارزميتي MFCC( و )Endpoint ومدى تأثيرىما في نسب التعرؼ عمى الصوت الكعدي - 2 اختالؼ عدد عصبونات الطبقة الخفية: يبيف الشكؿ ( 8( أنو ميما زدنا عدد عصبونات الطبقة الخفية ل يؤدي إلى تدريب الشبكة وانما ما ازؿ الخرج الفعمي بعيد عف اليدؼ المرغوب. )b(3 عصبون لمطبقة الخفية عصبون لمطبقة الخفية الشكل) 8 ( تحميل أداء الشبكة في الحالة األولى معدل التعمم.35 )a 3 -زيادة عدد التك ار ارت طالما أف الخرج ل يصؿ إلى اليدؼ المرغوب. يبيف الشكؿ )9( ميما زدنا عدد التك ار ارت لف يت الوصوؿ لقيمة خرج فعمي تقارب اليدؼ. - الشكل )9( تحميل أداء الشبكة في الحالة األولى - اختالف عدد تك ار ارت التدريب 2-5-4 تقنية الميؿ الموحد المتدرج :scg يبيف الشكؿ ( ( مقارنة بيف شبكتيف عصبيتيف ليما نفس الخصائص )عدد الطبقات عدد العصبونات توابع التفعيؿ معامؿ التعم عدد التك ار ارت قيمة الخطأ( ولكف باستخدا تقنيتيف مختمفتيف في التدريب 22
Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشريف العمو اليندسية المجمد )38( العدد )2( 26 gd,sgd وتبيف لدينا أف تقنية scg أدت إلى تدريب الشبكة وبموغ اليدؼ عمى عكس تقنية gd التي ل تحقؽ ذلؾ ميما زدنا التك ار ارت أو غيرنا معامؿ التعم أو عدد عصبونات الطبقة الخفية لذلؾ ال يفضؿ استخدا تقنية gd في التدريب. trainscg)b ( Traingd )a الشكل )( مقارنة بين استخدام التقنيتين المختمفتين في التدريب وتوابع تفعيل ثابتة )tansig( 2 -اختالؼ عدد عصبونات الطبقة الخفية. يبيف الشكؿ) ( أنو ت الوصوؿ إلى اليدؼ باستخدا عدد مختمؼ مف العصبونات لمطبقة الخفية ولكف عند عدد عصبونات أقؿ استغرؽ عدد تك ار ارت أكثر لموصوؿ إلى اليدؼ المرغوب. 3 -اختالؼ تابع التفعيؿ لطبقة الخرج. يبيف الشكؿ) 2 ( 9)b( )a( الشكل )( مقارنة بين استخدام عدد عصبونات مختمف لمطبقة الخفية أف التابع logsig غير قادر عمى فصؿ العينات في حيف أف التابع tansig حقؽ ذلؾ. 23
و( د ارسة تحميمية لخوارزميتي MFCC( و )Endpoint ومدى تأثيرىما في نسب التعرؼ عمى الصوت الكعدي tansig)b( logsig )a( الشكل )2( مقارنة بين استخدام توابع تفعيل مختمفة لطبقة الخرج 4 -اختالؼ عدد الطبقات: يبيف الشكؿ) 3 ( أف اختيار عدد طبقات خفية مختمؼ لف يؤثر عمى القدرة عمى فصؿ العينات وانما زيادة عدد الطبقات الخفية سبب في زيادة عدد م ارت التدريب. ( a (طبقة واحدة ) b (طبقتاف الشكل )3( مقارنة بين استخدام عدد مختمف من الطبقات الخفية :FFBPNN تدريب وفقا لمد ارسة التحميمية ت اقت ارح البنية اآلتية لمشبكة العصبية ذات التغذية األمامية واالنتشار الخمفي لمخطأ طبقة خفية واحدة. تابع الػ 'tansig' لمطبقة الخفية تابع tansig' لمطبقة الثانية )طبقة الخرج( تابع 'trainscg' كتابع ت اختيار معدؿ تعم القيمة.35 كقيمة نيائية قيمة اؿخطأ. اختمفت عدد عصبونات الطبقة الخفية وطبقة الخرج حسب مرحمة التعرؼ يظير الشكميف) طبولوجيا الشبكة المستخدمة في كؿ مف مرحمتي التعرؼ عمى المتكم والتعرؼ عمى الكال عمى التوالي. )5( 4 24
Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشريف العمو اليندسية المجمد )38( العدد )2( 26 الشكل) 4 ( طبولوجيا الشبكة المقترحة للتعرف على المتكلم 5-4 مرحمة التقيي: الشكل) 5 ( طبولوجيا الشبكة المقترحة للتعرف على الكالم ت التعرؼ عمى 89 عينة اختبار مف أصؿ 26 عينة أي بما يعادؿ نسبة قدرىا % في مرحمة التعرؼ عمى المتكم و 96 مف أصؿ 26 عينة أي بما يعادؿ 9.74% في مرحمة التعرؼ عمى الكال. Expected Speaker Speaker2 Speaker3 Speaker4 جدول )6( نتائج التعرف عمى المتكممين Recognized Speaker Speaker2 Speaker3 46 3 5 49 4 49 7 Speaker4 3 45 25
د ارسة تحميمية لخوارزميتي MFCC( و )Endpoint ومدى تأثيرىما في نسب التعرؼ عمى الصوت الكعدي expected open close left Right Up down Thirty Sixty forty Open 9 3 2 close 4 2 جدول )7( نتائج التعرف عمى الكالم recognized left right up down 24 24 24 24 thirty 9 4 sixty 5 2 forty 22 االستنتاجات والتوصيات: بالنسبة لمرحمة المعالجة األولية: باستخدا خوارزمية تحديد بداية الكال ونيايتو كاف المتوسط الحسابي لعدد البتات التي ت االستغناء عنيا مف مصفوفة كؿ ممؼ صوتي ىي 5492 أي بنسبة قدرىا 6.6% إلغاء تفعيؿ خوارزمية Endpoint عمى أشعة االختبار وتطبيقيا عمى الشبكة العصبية المقترحة أدى إلى انخفاض نسبة التعرؼ عمى الكممات المنطوقة مف 9.74% إلى 7.42% ونسبة التعرؼ عمى المتكم مف % إلى 75.4% في مرحمة استخالص السمات: بالنسبة لتحديد عدد المرشحات استنتجنا أف : بنؾ المرشحات المكوف مف عدد مرشحات) 9-5(: باقي بنوؾ المرشحات لذلؾ ال يحبذ استخداميا. أدت إلى نسب تعرؼ عمى اختالؼ السمات أقؿ مف بنؾ المرشحات المكوف مف عدد مرشحات ( 35-24 (:أدت إلى نسب تعرؼ مت ازيدة )تعرؼ عمى المتكم( و متقاربة )في حالة التعرؼ عمى الكال(عمى اختالؼ السمات المستخدمة. بنؾ المرشحات المكوف مف عدد مرشحات ) 5-36 (:ثبتت نسبة التعرؼ. بالنسبة لعالقة عدد المرشحات بعدد السمات استنتجنا أنو: عندما يكوف عدد السمات أصغر مف عدد المرشحات: زيادة عدد السمات عمى اختالؼ عدد المرشحات تؤدي إلى زيادة نسبة التعرؼ. عندما يكوف عدد السمات أكبر مف عدد المرشحات: ثبتت نسبة التعرؼ عمى أعمى نسبة تعرؼ حصمنا عمييا عندما عدد السمات أقؿ بقميؿ مف عدد المرشحات. وبالتالي يحبذ اختيار بنؾ مرشحات مكوف مف عدد مرشحات بيف) مف عدد المرشحات بقميؿ. وفقا لمد ارسة نستطيع تحديد 35-24( ويحبذ اختيار عدد سمات أصغر )عدد مرشحات 35 عدد سمات 34( مف أجؿ مرحمة التعرؼ عمى المتكم و)عدد مرشحات 24 عدد سمات 23( مف أجؿ مرحمة التعرؼ عمى الكال. 26
Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشريف العمو اليندسية المجمد )38( العدد )2( 26 بالنسبة لمرحمة التعرؼ: باستخدا عينات التدريب وعينات االختبار ذاتيا ونفس الخوارزميات أبدت خوارزمية MFCC إمكانية التعرؼ عمى الكال بنسبة قدرىا % 9.74 ونسبة تعرؼ عمى المتكم% الكال أفضؿ مف المتكم بنسبة قدرىا 3.24%. مقارنة مع األبحاث السابقة: يوضح الجدوؿ) 8 ( مقارنة الد ارسة المقترحة مع األبحاث السابقة. أي أبدت الخوارزمية إمكانية التعرؼ عمى الباحث S. S. Wali, S. M. Hatture and S. Nandyal [5] Mayur R Gamit, KinnalDhameliya[6] KirandeepKaur,Neelu Jain[7] Namrata Dave[7] جدول) 8 ( مقارنة الد ارسة مع الد ارسات السابقة قاعدة البيانات الطرؽ المستخدمة لمبحث (- ( 5 مستخد كؿ مستخد لفظ العبارة م ارت كممات مف مالحظات درس مرحمة التعرؼ عمى المتكم فقط واستخد عبارة واحدة فقط في مرحمة التعرؼ اىت بنسبة التعرؼ فوجد أنيا %)92-7( مف أجؿ) -5 ( مستخد ل يدرس با ارمت ارت خوارزمية mfcc ل يستخد قبؿ 28 متكم ----- ------- خوارزميةendpoint درس مرحمة التعرؼ عمى الكال فقط ووجد نسبة تعرؼ %82 عند استخدا mfcc ونسبة 86% عند الدمج )mfcc&lpcc( ل يدرس با ارمت ارت خوارزمية mfcc ل يستخد خوارزميةendpoint درس مرحمة التعرؼ عمى المتكم فقط ووجد أف خوارزمية mfcc أفضؿ خوارزمية الستخالص السمات وgmm أفضؿ مصنؼ ل يدرس با ارمت ارت خوارزمية mfcc ل يستخد خوارزميةendpoint. درس مرحمة التعرؼ عمى الكال فقط ووجد أف خوارزميتي Silience part removal Algorithm,Mfcc,vq,ffbpnn Energy and zero crossing rates(zcr), Mfcc&Lpc, ffbpnn Vq,gmm,svm,dtw,hmm Lpcc,lpc,wavelete,mfcc, Lpc,plp,mfcc,ffbpnn 27
د ارسة تحميمية لخوارزميتي MFCC( و )Endpoint ومدى تأثيرىما في نسب التعرؼ عمى الصوت الكعدي mfcc,plp أفضؿ مفLpc ل يدرس با ارمت ارت خوارزمية mfcc ل يذكر خوارزميةال ازلة فت ارت الصمت. 75 عينة يعود Lpc,plp,mfcc,ffbpnn درس مرحمة التعرؼ عمى الكال GOYANI, M, DAVE, كؿ 5 عينة فقط ووجد أف خوارزميةmfcc N.[8] فييا أفضؿ مف وplp,Lpc ل يدرس لمفظمعيف) 5 ألفاظ با ارمت ارت خوارزمية mfccوانما صوتية( حدد عدد المرشحات يساوي 26 و عدد السمات 2 أو 42 ل يذكر خوارزميةال ازلة فت ارت الصمت. Mfcc,svm,hmm درس التعرؼ عمى مشاعر -------- AshishB.Ingale, المتكم حيث ميز 5 حاالت Dr.D.S.Chaudhari[8] باستخدا مصنفيف مختمفيف ووجد أف مصنؼ hmm أفضؿ مف مصنؼ svm ل يدرس با ارمت ارت خوارزمية mfcc ل يذكر خوارزمية ال ازلة فت ارت الصمت. Endpoint,mfcc,k- الد ارسة المقترحة 576 عينة مف درس مرحمتي التعرؼ عمى قبؿ 4 متكمميف means,ffbpnn الكال والمتكم وناقش تأثير لفظ كؿ مني 9 تغير قيمة با ارمتريف خاصيف كممات بخوارزمية mfcc عمى نسبة التعرؼ وفعالية خوارزمية mfcc عمى كؿ مرحمة ود ارسة خوارزمية endpoint وتأثيرىا عمى نسبة التعرؼ التوصيات: تسجيؿ األصوات في استوديوىات مخصصة. - د ارسة با ارمت ارت أخرى لخوارزمية MFCC وتأثيرىا عمى نسبة التعرؼ. - 2 د ارسة خوارزميات مختمفة إل ازلة فت ارت الصمت وتأثيرىا عمى نسبة التعرؼ. - 3 28
د- Tishreen University Journal. Eng. Sciences Series مجمة جامعة تشريف العمو اليندسية المجمد )38( العدد )2( 26 الم ارجع: []- CARROLL, T.;COLANGELO, R.;STROTT, T."Bird Call Identifier Identifying Songs of Bird Species through Digital Signal Processing Techniques". 2,8. [2]-Xue, X."Joint Speech and Speaker Recognition Using Neural Networks".NOVIA-University of applied science. 23,6. [3] CHOUDHARY, A.;KSHIRSAGAR,R."Process Speech Recognition System using Artificial Intelligence Technique".(IJSCE),ISSN: 223-237, Volume-2, Issue-5, 22,PP(239-242). [4 ]- TAN, L.;KARNJANADECHA, M. "Modified Mel-Frequency Cepstrum Coefficient Department of Computer Engineering". Faculty of Engineering Prince of Songkhla University Hat Yai,Songkhla Thaiiland,92,2,PP(-4). [5]- GIANNAKOPOULOS, T. A." method for silence removal and segementation of speed signals". report, University of Athens, Greece and NCSR DEMOKRITOS, Greece.975,PP(27-25). [6]-Rabiner, L.R. ;Sambur,M.R."An algorithm fordetermining the end point of isolated utterances".bell labs technical journal,23,pp(297-35). [7]- Dave,N."Feature Extraction Methods LPC, PLP and MFCC In Speech Recognition". G H Patel College of Engineering, Gujarat Technology University,INDIA,Volume, Issue VI, 23,pp(-5). [8]- GOYANI, M.;DAVE, N."Performance Analysis of LPC, PLP and MFCC ParametersIn Speech Recognition". GCET, SPU, V.V.Nagar, Gujarat, INDIA,23,pp(74-78). [9]- DEMUTH, H.; BEALE, M."Neural Network Toolbox For Use with MATLAB". version 3, 997, 7.[]- D.E. Rumelhart and J. McClelland, editors, Parallel Data Processing, Vol., Chapter 8, The M.I.T. Press, Cambridge, MA, 986, pp( 38-362). []- Elsevier experts."pattern Recognition". Fourth Edition, Elsevier Inc.,29,5. [2]-Kmeans produc document. "http://www.mathworks.se/help/toolbox/stats/kmeans.html", Download Date /2/25. [4]-http://practicalcryptography.com/miscellaneous/machine-learning/guide-melfrequency-cepstral-coefficients-mfccs, Download Date 7/5/25. [5]-Wali,S. S.;Hatture,S. M.;Nandyal,S."MFCC Based Text-Dependent Speaker Identification Using BPNN".International Journal of Signal Processing Systems Vol. 3, No., June 25,pp(3-34). [6]-Gamit,M. R.;Dhameliya,K."ISOLATED WORDS RECOGNITION USING MFCC, LPC AND NEURAL NETWORK". IJRET: International Journal of Research in Engineering and Technology, eissn: 239-63 pissn: 232-738, Volume: 4 Issue: 6 June-25,pp(46-49). [7]- Kaur,K.;Jain,N."Feature Extraction and Classification for Automatic Speaker Recognition System A Review". International Journal of Advanced Research in Computer Science and Software Engineering, Volume 5, Issue, January 25 ISSN: 2277 28X,pp(-6). [8]-Ingale,A.B.;Chaudhari,D.S."Speech Emotion Recognition Using Hidden Markov Model and Support Vector Machine ". International Journal of Advanced Engineering Research and Studies,IJAES/Vol.I/Issue III/April-June,22,pp(36-38). [9].مري ساعي.عمي ميا." التعرؼ عمى األشخاص باستخدا األذف". رسالة ماجستير جامعة تشريف الصفحة) 55-5 ( 23. 29