و ازرة التعليم العالي والبحث العلمي جامعة القادسية كلية التربية قسم الرياضيات بحث مقدم الى قسم الرياضيات كجزء من متطلبات نيل شهادة البكالوريوس علوم رياضيات من قبل الطالبة نور محمد حسن بأش ارف د. كوركيس شهيد محمد 1439 ه 218 م
}ن ر ف عد ر ج اتم ن ن ش اء و ف و ق كل ذ يع ل مع ل يم }
سورة يوسف آية )76( اإلهداء اهديمحتوىهذاالبحثالىالددكتور كدوركيسشدييدمحمدد اسدتاذت فد هدذاالبحدث الت لياالفضلالكبيرفد انجدا هدذاالبحدثوته يد مبالمواضديعالهلميددالمسدند بالم دادر الهلميدالموثوقد لياج يلالشكروالتقديرعلىمساعدتياالقيمد. كمدادهديدىالدىكدلاسداتذت الكدرامفد قسدمالرياضدياتليدمكدلالحد وا متندانوكدلمدن سدداعدن واليمندد القدددر والتشددجيع.كمددادهددديهددذاالبحددثالددىكددلمددنيقددردموي لددععلددى مضموندوعسىانتتهماالستفاد للجميعوهللاول التوفيق. الباحثد نورمحمدحسن المحتويات ت الموضوع الصفحة.1 اآليدالكريمد.2 االهداء الملخص د.3 3-1.4 المقدمد 7-4 5. الفصل االول: مفاهيم اساسية 5 1.1 فضاءات المتجهات vector spaces.6 7-6 1.2 فضاء 7. هلبرت االبتدائي Pre-Hilbert Space 15-8 Kernel CCA الفصل الثاني : طريقة كيرنل في تحليل االرتباط القويم.8
14-11 2.1 المحاكاة.9 15-14 2.2 تحليل النتائج.1 16.11 االستنتاجات 17.12 المصادر 19-18 13. الملحق
R n x, Y R n y المقدمة: يفترض هذا التحليل وجود زوج من المتغي ارت المتعددة ويعمل على ايجاد زوج من التحويالت الخطية التي تجعل معامل االرتباط بين المعالم المستخلصة اعظم ما يمكن وبافت ارض ان,X Y لكل منهما متوسط مقداره صفر وتباين مقداره واحد فان التحويالت تكون كما ياتي: حيث ان : U = a, x, V = b, y تمثل حاصل الضرب الداخلي product( )inner,a x و بين a, x, b, y b, y على التوالي. والهدف هنا هو ايجاد التحويل المناسب الى a,b والذي يجعل معامل االرتباط اعظم ما يمكن. وبمعنى اخر اذا كان لدينا متغير عشوائي يتكون من p من االبعاد هو X ومتغير يتكون من q من االبعاد هو Y هدفنا هو الحصول على تركيبات خطية من المتغي ارت االصلية تمتلك اعظم ارتباط ويمكن التعبير عن ذلك بصيغة رياضية بالشكل التالي : ρ = MAX corr(a T X, b T Y). (1) ان المتغي ارت الناتجة U = a T X, V = b T X تدعى المتغي ارت القويمة وان االرتباط القويم االول ρ يعرف كقيمة مطلقة لالرتباط بين مجموعتين من المتغي ارت 1 < k < القويمة وكما في العالقة رقم )1( ان المتغير القويم ذو المرتبة k سيكون غير مرتبط مع كل المتغي ارت القويمة ذات الرتب العليا. b T, a T كمتجه مميز م ارفق لقيم مميزه عظمى Min(p, q) ويمكن ايجاد 1
z افرض ان Σ تمثل مصفوفة التباين المشترك للمجتمع للمتغير العشوائي حيث ان ويمكن وضع Σ بالشكل التالي: z = (X T, Y T ) T Σ XY وقد نستخدم مصفوفة االرتباطات R Σ = [ Σ XX ] Σ YX Σ YY R XY R = [ R XX ] R YX R YY حيث يتم حساب المتجه المميز b T من العالقة التالية: (M λi)b = (2) بفرض ان عند استخدام مصفوفة االرتباطات M = Σ 1 YY Σ YX Σ 1 XX Σ XY ان قيم المتجه المميز b T والذي يرتبط بكل قيمة من القيم المميزة (λ) الناتجة من المعادلة (2) تمثل او ازنا للمجموعة Y من المتغي ارت. a T المقابل للمجموعة X من المتغي ارت وبعد حساب b T يمكن ان نحدد المتجه من خالل العالقة التالية : a T = 1 λ R XX 1 R XY d T يستخدم تحليل االرتباط القويم عندما تكون,X Y متغي ارت تتبع التوزيع الطبيعي المشترك وحتى يكون هذا االفت ارض غير متحقق يمكن استخدامه في بعض الحاالت وعندما يكون هدفنا هو الحصول على انحدار تلك المتغي ارت فاننا نرغب في 2
الحصول على قيم كبيرة لمعامالت االرتباط. ولكن احيانا قد نحصل على قيم صغيرة لتلك المعامالت وقد يكون ذلك عائدا الى احد السببين التاليين: 1 -عدم وجود اي عالقة بين,X. Y 2 -هناك عالقة غير خطية قوية بين,X. Y في الحالة االولى اليمكن الحصول على افضل مما تم الحصول عليه واليمكن اج ارء اي تحسينات تذكر. اما في الحالة الثانية فيمكن الحصول على العالقة باستخدام بعض الطرق منها طريقة كيرنل Method( )Kernel في تحليل االرتباط القويم. الفصل االول 3
مفاهيم اساسية المصفوفة: هي دالة رياضية خطية تحول مجموعة بداية اي انطالق )مجال( الى مجموعة وصول او نهاية )مدى(. مجموعة انطالق والوصول يمكن ان تكون متكونة من اعداد صحيحة او عقدية او اشعة ممن االعداد كم يمكن ان تكون هاتان المجموعتان متكونة بدورها من داالت رياضية او اشعة داالت رياضية ويمكن ان نرمز للمصفوفة كما يلي :- a 11 a 12 a 1n a 21 a 22 a 2n [ ] a m1 a m2 a mn حيث a ij يمكن ان تكون اعداد صحيحة او مركبة كما يمكن ان تكون داالت رياضية العمليات على المصفوفات جمع مصفوفتين : اذا كانت ) ij A = (a ij ), = (b مصفوفتين على الحقل F ومن نفس السعة فان جمع المصفوفتين,A B يعرف بالشكل التالي : c ij = a ij + b ij حيث C = A + B ضرب المصفوفات اذا كانت ) ij A = (a مصفوفة على الحقل c F F وكان الحقل عدد ثابت قياسي فان حاصل ضرب العدد c بالمصفوفة يعرف بالشكل 4
CA = (ca ij ) 1.1 فضاءات المتجهات vector spaces تعريف: نقول مجموعة E هي فضاء متجهات على R اذا كان تحقق مايلي:-. u + v u, v E )الخاصية االغالق لعملية الجمع ) اذا كان فأن.1 u + فأن u, v, w E E )الخاصية التجمعية لعملية الجمع( اذا كان (v + w) = (u + v) + w )خاصية المحايد الجمعي ) يوجد عنصر بحيث )يسمى المحايد الجمعي( u u + = + u, u E لكل u E يوجد عنصر يرمز له ويسمى نظير u الجمعي ويحقق u + v = v + u ( u) = ( u) + u = )الخاصية االبدالية للجمع( اذا كان,u v E فان.2.3.4.5 )الخاصية االغالق لعملية الضرب بعدد( اذا كان u E و a R au E اذا كان u, v E و a R فان α(u, v) = αu + αv فأن.6.7 (α + β)u = αu + βu α, β R اذا كان u E و فان.8 (α. β)u = α(βu) اذا كان u E و α, β R فإن.9 1. u = u 1.اذا كان u E فان 1.2 فضاء هلبرت االبتدائي Pre-Hilbert Space 5
ليكن X فضاء متجهات على الحقل.F الدالة : X X F. تسمى بدالة الضرب الداخلي inner Product على X اذا تحققت البديهيات االتية:-. x X لكل x, x.1. اذا وفقط اذا كان = x. حيث y x, تعني العدد الم ارفق للعدد y,x x, x = x, y = y, x.2.3 α, β لكل x, y, z X لكل αx + βy, z = α x, z + β y, z.4 F فضاء هلبرت االبتدائي space( )Pre-Hilbert او )فضاء الضرب الداخلي( حيث X فضاء المتجهات على الحقل F,. ضرب داخلي هو الثنائي (. )x, على X. سوف تكتب X بدال من ).,x( في حالة عدم وجود التباس. مالحظة: كل فضاء جزئي م فضاء هلبرت االبتدائي يكون فضاء هلبرت االبتدائي. y = (y 1, y 2 ) x = (x 1, x 2 ), مثال 3 : ليكن X = R 2 معرفا على الدالة االتية: x, y = x 1 y 1 + x 2 y 2 x = (x لكل x 1, x 2 = x 2 1 + x 2 1, x 2 ) R 2 2-1 x 1, x 2 = x 2 1 + x 2 2 = -2 x 2 1 =, x 2 2 = x 1 =, x 2 = x = x, y = x 1 y 1 + x 2 y 2 = y 1 x 1 + y 2 x 2 اربعا : ليكن ) 2 x = (x 1, x 2 ), y = (y 1, y 2 ), z = (z 1, z 6
αx + β y = α(x 1, x 2 ) + β(y 1, y 2 ) = (αx 1 + βy 1, αx 2 + βy 2 ) αx + βy, z = (αx 1 + βy 1 )z 1 + (αx 2 + βy 2 ) z 2 = α(x 1 z 1 + x 2 z 2 ) + β(y 1 z 1 + y 2 z 2 ) = α x, z + β y, z. ضرب داخلي على R 2 الفصل الثاني طريقة كيرنل في تحليل االرتباط القويم Kernel CCA 7
في هذه الطريقة يتم تحويل X,Y في فضاء هلبرت space( )Hilbert حيث : x (x) H x, y (y) H y وبأخذ حاصل الضرب الداخلي product( )inner للمعالم في فضاء هلبرت a H x, b H y U = a, (x), V = b, (y) نحصل على ما يأتي: وبفرض وجود عينات يمكن ايجاد a,b وذلك عن طريق حل عالقة N {(x i, y i )} i=1 الك ارنج التالية: L = E[(U E[U])(V E[V])] λ 1 2 E[(U E[U])2 ] λ 2 2 E[(V E[V])2 ] ان عالقة الك ارنج ال تعمل بشكل جيد عندما تكون ابعاد فضاء هلبرت كبيرة ولهذا يجب اضافة حد انتظام تربيعي term( )Quadratic Regularization وذلك من اجل تحسين عمل عالقة الك ارنج وكما يأتي: L = L + η 2 ( a 2 + b 2 ) حيث ان تمثل ثابت انتظام constant( )Regularization ان معدل U يمكن η حسابه من الصيغة التالية:- E[U] = 1 N a, φ x(x i ) i 8
ان فضاء هلبرت االبتدائي الكامل يدعى فضاء هلبرت بعبارة اخرى اذا كان X. فان X فضاء متجهات على الحقل F مع الضرب الداخلي يكون فضاء هلبرت اذا كان الفضاء المتري المتولد بواسطة المعيار x x 2 =,x فضاء كامال. ويمكن توضيح فضاء هلبرت االبتدائي او ما يسمى احيانا بفضاء الضرب الداخلي من خالل التعريف التالي:. : X X F الدالة.F تعريف: ليكن X فضاء متجهات على الحقل تسمى بدالة الضرب الداخلي على X اذا تحققت البديهيات التالية:. x X لكل x, x -1. x, y x, x = -2 اذا وفقط اذا كان -3 x x, y = y, حيث.x = X x, y αx + βy, z = α x, z + β y, z تعني العدد الم ارفق للعدد لكل x, y, z X, α, β F فضاء هلبرت االبتدائي space( )Pre-Hilbert او فضاء الضرب الداخلي هو.X. F X الثنائي ) (X, حيث فضاء متجهات على الحقل داخلي على و وكذلك معدل UV يمكن حسابه بالشكل التالي: E[UV] = 1 N a, φ x(x i ) b, φ y (y i ) i.j a ومساواة المشتقة الى الصفر نحصل على ما يأتي: وباشتقاق L بالنسبة الى 9
a = α i φ x (x i ) i.j حيث ان α i تمثل ثابت )scalar( ونتيجة للخطوة السابقة فان: U = α i φ x (x i ), φ x (x i ) i والتي يمكن حسابها عن طريق حاصل الضرب الداخلي. ان ما يسمى بخدعة كيرنل يتلخص باستخدام دالة كيرنل ) 2 K x (X 1, X بدال من Kernel Trick حاصل الضرب الداخلي بين ) 2 φ x (X 1 ), φ x (X وبذلك لسنا بحاجة الى صيغة نحتاج فقط الى تحددي K x والتي تكون معرفة موجبة متماثلة. ويمكن φ x (X) اعادة كتابة L من حسب وجهة نظر طريقة كيرنل كما ياتي: = (β 1, β 2,, β N ) T, α = (α 1, α 2,, α N ) T (K x ) ij = K x (x i, x j ) (K y ) ij = K y (y i, y j ) افرض ان فأن : L = α T M β λ 1 2 αt L α λ 2 2 βt Nβ حيث ان: M = 1 N K x T JK y L = 1 N K x T JK x + η 1 K x 1
N = 1 N K y T JK y + η 1 K y J = I 1 N 11T 1 = (1,1,,1) T η 1 = η λ 1, η 1 = η λ 2 Positive N,L واذا كانت > η فإن كل من سيكون مصفوفة معرفة موجبة ويمكن اثبات ان λ 1 = λ 2 = λ ونتيجة لذلك يكون لدينا ما definite matrix يدعى بمشكلة قيمة مميزة عامة) problem )Generalized eigenvalue وكما يأتي:- Mβ = λlα M T α = λnβ والتي يمكن حلها مشكلة قيمة مميزة عامة. 2.1 المحاكاة: لقد تم استخدام المحاكاة لغرض اج ارء المقارنة بين مقد ارت االرتباط القويم المحسوبة وفق الطريقة التقليدية ومقد ارت االرتباط القويم المحسوبة وفق طريقة كيرنل باستخدام ثالث دوال من كيرنل هي دالة Kernal( )Gaussian ودالة ( Uniform )Kernel ودالة Triangle Kernel وذلك بهدف معرفة افضلية المقد ارت وذلك باالعتماد على كون االرتباط القويم يمثل اكبر االرتباطات للحكم على المقدر االفضل وتم كتابة برنامج باستخدام لغة )V.B( خاص بالتجربة لتحقيق هذا الهدف حيث تم تك ار ارها )1( مرة لغرض الوصول الى نتائج مقنعة ويمكن اد ارج خطوات اج ارء المحاكاة وكالتالي:- 11
تولد قيم للمتغي ارت ( 2 ) x 1, x لتكوين تركيبة خطية هي UC i والتي يتم استخدامها في حساب االرتباط القويم وفق الطريقة التقليدية وتركيبة خطية اخرى هي UK i والتي يتم استخدامها في حساب االرتباط القويم وفق طريقة كيرنل وبأحجام عينات 1,2,3,4,5,6,7,8,9) = (n أي لكل متغير n من متغي ارت x نولد من المشاهدات المذكورة حيث ان : UC i = a 1 x 1 + a 2 x 2 UK i = a 1 K(x 1 ) + a 2 K(x 2 ) وان صيغ دوال كيرنل المستخدمة هي الصيغ التالية: وهذه الدالة تدعى دالة Kernal( )Gaussian a) K(x) = 1 x2 exp ( ) 2π 2 b) K(x) = 1, x 1 2 وهذه الدالة تدعى دالة kernel( )Uniform وهذه الدالة تدعى دالة kernel( )Triangle c) K(x) = (1 x ), x 1 X = (θ)sin3θ + ε 1 حيث يتم توليد قيم θ على اساس انها تتبع التوزيع المنتظم المستمر على الفترة.[ π, π] : يمثل حد الخطأ العشوائي ويتم توليده على اساس انه يتبع التوزيع الطبيعي ε 1 λ = 1 3 القياسي في الحالة االولى ويتبع التوزيع االسي بالمعلمة في الحالة الثانية اما في الحالة الثالثة فيتم توليده على اساس انه يتبع توزيع كاي بالمعلمة n. 12
VC i يتم توليد متغي ارت ) 2 (y 1, y لتكوين تركيبة خطية هي والتي يتم استخدامها في حساب االرتباط القويم وفق الطريقة التقليدية وتركيبة خطية اخرى هي VK i والتي يتم استخدامها في حساب االرتباط القويم وفق طريقة كيرئل وباحجام عينات )1,2,3,4,5,6,7,8,9=n( أي لكل متغير من متغي ارت y تولد n من المشاهدات المذكورة حيث أن: VC i = b 1 y 1 + b 2 y 2 VK i = b 1 k(y 1 ) + b 2 K(y 2 ) y وان K(y) تاخذ نفس الصيغ السابقة وان الصيغة التي يتم الحصول على قيم منه في الصيغة التالية:- Y = e θ 4(cos2θ)(sin 2θ) + ε 2 حيث يتم توليد قيم θ على اسا انها تتبع التوزيع المنتظم المستمر على الفترة. [ π, π] ونولد قيم المتغير ε 2 مرة بالتوزيع الطبيعي القياسي ومرة اخرى بالتوزيع االسي بالمعلمة = 1/3 λ ومرة ثانية بتوزيع مربع كاي بدرجة حرية )n(. VC i يتم حساب معامالت االرتباط بين UC i و حيث ان اكبرها يمثل معامل االرتباط القويم المحسوب وفق الطريقة كيرنل حسب الدالة المستخدمة أي يتم حساب معامل االرتباط القويم نوع كيرنل لدوال كيرنل الثالث. تيم المقارنة بين معامالت االرتباط القويم المحسوبة وفق طريقة كيرنل وبالدوال الثالث. 2.2 تحليل النتائج: 13
بعد اج ازء تجربة المحاكاة تم الحصول على النتائج التالية : 1 -من الجدول رقم )1( والذي يمثل قيم معامالت القويم المحسوبة باستخدام طريقة كيرنل وبالدوال الثالث وكذلك معامالت االرتباط القويم المحسوبة وفق ε 1 الطريقة التقليدية عندما يكون, ε 2 يتبع كل منهما التوزيع الطبيعي القياسي نالحظ ان معامالت االرتباط القويم المحسوب وفق طريقة كيرنل كانت اكبر من تلك المحسوبة وفق الطريقة التقليدية ولجميع حجوم العينات وكانت اكبر تلك االرتباطات باستخدام دالة Kernal( )Gaussian ومن ثم باستخدام دالة Kernal( )Uniform وبعد ذلك باستخدام دالة ( Triangle.)Kernel ونالحظ بشكل عام ان االرتباطات المحسوبة وفق الطريقة التقليدية كانت صغيرة جدا. 2 -نالحظ من الجدول رقم )2( والذي يمثل قيم معامالت االرتباط القويم المحسوبة باستخدام طريقة كيرنل وبالدوال الثالث وكذلك معامالت االرتباط ε 1 القويم المحسوبة وفق الطريقة التقليدية عندما يكون ε 2 يتبع كل منهما λ = 1 3 التوزيع االسي بالمعلمة ان معامالت االرتباط القويم المحسوبة وفق طريق كيرنل كانت اكبر من تلك المحسوبة وفق الطريقة التقليدية عند استخدام دالة Kernel( )Gaussian وكذلك عند استخدام دالة ( Uniform )Kernel ولجميع حجوم العينات بينما كانت تلك االرتباطات اقل مما كانت عليه ارتباطات الطريقة التقليدية عند استخدام دالة Kernal( )Triangle. ونالحظ بشكل عام ان االرتباطات المحسوبة وفق الطريقة التقليدية كانت اكبر مما كانت عليه في الجدول رقم )1(. 14
3 -من الجدول رقم )3( والذي يمثل قيم معامالت االرتباط القويم المحسوبة باستخدام طريقة كيرنل وبالدوال الثالث وكذلك معامالت االرتباط القويم ε 1 المحسوبة وفق الطريقة التقليدية عندما يكون ε 2 يتبع كل منهما توزيع مربع كاي بالمعلمة n نالحظ ان معامالت االرتباط القويم المحسوبة وفق طريقة كيرنل كانت اكبر من تلك المحسوبة وفق الطريقة التقليدية ولجميع Gaussian حجوم العينات وكانت اكبر تلك االرتباطات باستخدام دالة ( )Kernal ومن ثم باستخدام دالة Kernel( )Uniform وبعد ذلك باستخدام دالة Kernel(.)Triangle ونالحظ بشكل عام ان االرتباطات المحسوبة وفق الطريقة التقليدية كانت اكبر مما كانت عليه في الجدول رم )1(. ولكنها كانت اقل مما عليه في الجدول رقم )2( عند حجوم العينات المتشابهة. االستنتاجات: 1 -عندما يكون ε 1 يتبع كل منهما التوزيع الطبيعي القياسي او التوزيع ε 2 االسي بالمعلمة او توزيع مربع كاي بالمعلمة n نالحظ ان معامالت λ = 1 3 االرتباط القويم المحسوبة وفق طريقة كيرنل كانت اكبر من تلك المحسوبة وفق الطريقة التقليدية ولجميع حجوم العينات فيما عدا في حالة التوزيع االسي 15
حيث كانت االرتباطات القويمة المحسوبة باستخدام طريقة كيرنل اقل من الطريقة التقليدية عند استخدام دالة Kernel(.)Triangle 2 -كانت االرتباطات القويمة المحسوبة وفق طريقة كيرنل باستخدام دالة Kernal( )Gaussian تمثل اكبر االرتباطات في جميع الحاالت وعند جميع حجوم العينات. المصادر : 1- Akaho, S, (21),' "A kernel method for caonical correlation analysis", second edition, McGraw. Hill series in probability and statistics. 2- Anderson, T.W (1984), "An Introduction to Multivariate statistical analysis', Jonwiley and sons. 16
3- Donald F.Morrison (1988)."Multivariate statistical methods", second edition, McGraw. Hill series in probability and statistical. 4- Florian, M.(23)"canonical Correlation Analysis with kernels", Computational Diagnostics Group seminar. Berlin. 5- Lai,p.l and C.fyfe(2). "Kerenel and nonlinear canonical correlation analysis", International Journal of Neural systems 1(5), 365-377. 6- Lindeman, R,H(198). "Introduction to bivariate and multivariate analysis, "Scott- Foresman company, Illinois, U.S.A. 7- Romanazzi, m.(1992), "Influence in canonical correlation analysis", Psychometrika, 57,237-259. 8 -المياحي نوري فرحان وعلي حسين بتور )25( "مقدمة في التحليل الدالي" مؤسسة النب ارس للطباعة والنشر والتوزيع النجف االشرف الع ارق. الملحق جدول )1( يمثل االرتباطات القويمة المحسوبة وفق الطريقتين وبالدوال المختلفة عندما تتبع االخطاء ε 1 ε 2 17
التوزيع الطبيعي القياسي الدالة المستخدمة الطريقة n=1 n=2 n=3 n=4 n=5 n=6 n=7 n=8 n=9 Kern el CCA CCA Gaussian Uniform Triangle Classical.82.63.55.1.8.62.52.3.79.61.5.2.78.59.47. 2.78.58.46.2.77.57.45.4.77.57.45.4.77.57.46.4.77.58.46.3 جدول )2( يمثل االرتباطات القويمة المحسوبة وفق الطريقتين وبالدوال المختلفة عندما تتبع ε 1 االخطاء ε 2 λ = 1 3 التوزيع االسي بالمعلمة الدالة المستخدمة الطريقة n=1 n=2 n=3 n=4 n=5 n=6 n=7 n=8 n=9 Kern el CCA CCA Gaussian Uniform Triangle Classical.73.56.47.5.72.54.44.47.71.54.43.44.71.53.42.44.71.52.41.44.71.52.42.44.72.53.42.44.72.54.42.44.72.54.42.44 جدول رقم )3( يمثل االرتباطات القويمة المحسوبة وفق الطريقتين وبالدوال المختلفة عندما تتبع ε 1 االخطاء ε 2 توزيع مربع كاي بالمعلمة n 18
19 n=9 n=8 n=7 n=6 n=5 n=4 n=3 n=2 n=1 ةلادلا ةمدختسملا قيرطلا ة.71.71 71.7.71.72.72.74.75 Gaussian Kern el CCA.55.55.55.54.55.56.57.59.62 Uniform.45.45.45.44.45.46.48.51.52 Triangle.34.34.34.34.35.36.39.4.43 Classical CCA