استخدام خوارزمية للعهقدة يف تهقيب البيانات Mining( )Data مع واقع تطبيقي أ.م.د. قتيبة نبيل نايف/ كلية االدارة واالقتصاد / جامعة بغداد الباحث/ حمي الدين خلف أيوب املطتخهص ا اىزقد اىعي اىنج س أد اى اال زشبز اى اظع ىي عي بر خ ثؾ ش اطبجؾذ اى عي ببد رزبسام ثشبنو ب بو فب و ادبد ث ب ببد مج بسح, بب رن ب ا بخ اىجؾبش فب ؾب ىبخ ر قب ؼ رج بت برا اىنب اى ب بو ب اىج ب ببد اىج ب ببد ث عبت رظب ا ب ثؾ بش ربغد اىمبسع اى يب ة فب اظبزاساط اى عي ببد اى اا بخ ا فب رظب دالوبر ب ثجعؼ ب ثم خ االفبدح ب ألغساع رق خ. ) عبد ال ب فب برا اى غببه أل بخ اىجؾبش فب ا اىع و ث ظ يؼ اىز ق ت ف اىج ب ببد اىج ب بد ثأظي ة رق ف اوبع ر ج قب بع بب نب ب الؽ بخ اظزادا خ ازش خ )K-Means) ىزظ K( اصس بب فب د ي بخ اىع قبدح n( مرىل ددد اىع بو بد اىزأص س ف اى زم ساد (v) خاله رم س ؽغ اىع خ ف ساؽو اىا ازش خ, خاله رن د بو د ضبى خ ثؾ ش رؾقق غ دخ ث ب ببد عد بدح ا بدح رغ بت دب مو االظزاعبزاد ثؾعت طابد اىج ب بد (Object) اىعب دح ىا ازش بخ اىجؾبش ثؾعبت زم بساد اىجؾبش (V) اى جقخ ف ثس ب ظ اىغب ت اىز ج ق. املصطهحاخ انرئيطيح نهثحث/ اىع بطس, ر ق ت اىج ب بد, اىع قدح, اىزعي االى, اىا ازش خ. اىجؾش عزو زظبىخ بععز س جملة العلوم االقتصادية واإلدارية 22 اجمللد العدد 91 604-983 فحات اال صلص
-1 املقذمح :Introduction إ اىز ز اىنج س ف غبالد اىعي اى ازياخ ب طبؽج ر ز ف رن ى ع ب اى عي بد ف دظس االرظبالد اىؾد ضخ اال زس ذ, أد إى ش بدح م خ اىج ب بد اىسو خ إذ ى رعد ظب و اىزؾي و اإلؽظب اىزقي د خ وبدزح دي اىزعب و ع ب ثم خ اظزاالص عي بد را ثبرابذ وسازاد طب جخ دو قخ. مرىل فإ ع د م بد مج سح اىج ب بد ف و ادد اىج ب بد )Data Base ف ابش اىج ب بد )Data warehouse شادد اىؾبعخ إى ر س أد اد رؾي و اىج ب بد ىمسع اظزاالص امزشبف اى عسفخ )Knowledge Discloser االفبدح ب. ب ظ س اظ ر ق ت اىج ب بد ) مأظي ة رق دف إى اظزاساط اى عي بد اى اا خ )Hidden information ثأد اد رق خ إؽظب خ ؽد ضخ. ب رغدز اإلشبزح إى أ أظبى ت ر ق ت اىج ب بد ) رسمص أ ؼب دي ث بء اىز جغاد اى عزقجي خ ف ظي ك ارغب بد )Trends اى زم ساد ب عبدد دي ارابذ وسازاد أمضس دوخ ف اى وذ اى بظت. ب رن ا خ اىجؾش ف اظزادا اؽد ؽسا ق اىع قدح خ ازش خ ف ر ق ت اىج ب بد DM ف اوع ر ج ق اعو اظزاالص اىاب دح اى عسفخ اىج ب بد اى جقخ, ثؾعت طابد (Object) زم ساد اىجؾش (V) ىيزغبزة اى ج خ ف اىغب ت اىز ج ق. 2- هذف انثحث: اال خ اى عي بر خ اىغد دح ا خ اىز ق ت ف اىج ب بد ػ و ادد اىج ب بد Base) (Data ابش اىج ب بد Warehouse) (Data, اد اد ظب و اىز ق ت ف اىج ب بد ؽس قخ إذ دف اىجؾش اى اظزادا خ ازش خ ىيع قدح ف اوع ر ج ق ىي ط ه اى اى عي خ خاله رظ طابد (Object) ى زم ساد (V) اىجؾش اىز ج ق فؼال د عسفخ ؽج عخ اىعال ق اى ع دح ث طابد اىج ب بد اىؾظ ه دي اى زب ظ اى سع ح ألفؼو رظ ىيج ب بد ثبىعسدخ اى ي ثخ. املثحث االول/ اجلانة اننظري: [2] -1 مفهىو تنقية انثياناخ :()- DM ظ س ظ يؼ ر ق ت اىج ب بد ف زظ اىعز بد ف اى ال بد اى زؾدح األ س ن خ ظ يؼ غ ع ث اإلؽظبء رن ى ع ب اى عي بد و ادد اىج ب بد,)Data Bases اىرمبء االط بد Neural DM ظ سد ددح رعبز ى ا ر ق ت اىج ب بد,)Machine Learning اىزعي ا ى,)Intelligent [3] ب االظزنشبف ا ى أ اى غر ذ أل بؽ شب قخ غ س عي خ اا خ ف وبددح اىج ب بد((. د سف دجبزح د رؾي الد ىن خ مج سح اىج ب بد ىمسع ا غبد و ادد أ ضيخ بذط ن أ [4] رعزاد ىزق د رده طبؽت اىقساز, رز جأ ثبىعي ك اى عزقجي ((, بك رعس آخس ى ا ر ق ت اىج ب بد رؾي و ى غ دبد مج سح اىؾغ اىج ب بد اى شب دح ىيجؾش د دالوبد ؾز يخ, ريا ض اىج ب بد ف [26] أشنبه عد دح ىزن ا خ ق دح ى عزاد ب((. رع أؽ ب ب امزشبف اى عسفخ( د ي خ رؾي و اىج ب بد زاد ازياخ اظزاالص اىعالوبد ف ب ث ب ريا ظ ب إى عي بد ا دح خاله اظزنشبف و ادد عد دح و ادد اىج ب بد اىنج سح مرىل امزشبف بذط )Model عد دح ط ال إى عي بد ذاد و خ ذىل ثبظزع به غ دخ األد اد اىزق بد اىؾد ضخ أ اىا ازش بد غ س ب أد اد اإلؽظبء االدز بد خ اىسظ اىج ب خ. خاله اىزعس ابد اىعبثقخ ن اىق ه أ ر ق ت اىج ب بد ) د ي خ امزشبف اى عسفخ و ادد اىج ب بد,)Data Base رع أؽ ب ب امزشبف اى عسفخ.)Knowledge discovering from Data- KDD جملة العلوم االقتصادية واإلدارية 093
2- أهميح تنقية انثياناخ: أ ر ق ت اىج ب بد )DM أظي ة ر ن خالى اى ط ه إى اى عي بد اى اص خ ف عز دع اىج ب بد )Data Warehouse زؼ اظزادا اىزؾي و اإلؽظب )Statistical Analysis المزشبف (32) اىعالوبد اىاا خ ف اىج ب بد( 2009 Baul, )Romney and, م ب عزجس ر ق ت اىج ب بد أؽد رن ى ع ب اىرمبء االط بد )Artificial Intelligent فؼال د األ خ اىاج سح اىشجنبد اىعظج خ, دف إى ر ن اى شبؽ أ اى خ االظزماله األ ضو ىج ب بر ب ف رؾب ه ا غبد اى عي بد ف غب ع اىج ب بد اىنج سح اىز ال رعي اى خ أ اى شبؽ ث ع د ب, مرىل ا غبد اىعالوبد د و اىز جغاد. زؼؼ ذىل أ أ خ ر ق ت اىج ب بد بع خ د د ي خ اظزنشبف رؾي و م بد مج سح اىج ب بد ىمسع اىؾظ ه دي دالوبد بذط خا خ رعبدد دي اظزاالص اى عي بد اى ا دح اىعب دح الرابذ وسازاد د و اظزسار غ خ ما يخ ثص بدح أداء اى خ أ اى شبؽ. 1- ط بغخ اى زم ساد رؾ ي ب :)Variables Construction and Translation ؽ ش غت أ رظبغ اى زم ساد اىغد دح ىج بء اى بذط اىاعبىخ اىز را ثبىغب ت اىز ج ق. 2- رنب و اىج ب بد :Data Integration اذ إ غب ع اىج ب بد ف دزاظخ اىز ق ت د اىج ب بد اى ن خص ب ف و ادد اىج ب بد زعددح األغساع اىز رن ثؾبعخ إى ر ؽ د ب ف وبددح ث ب خ اؽدح. 3- رظ ر ع ق اىج ب بد :)Data Formating and consisting ف ر اىا ح إدبدح رسر ت ؽق ه اىج ب بد فقب ى ذط اىز ق ت ف اىج ب بد. -3 أضانية تنقية انثياناخ :[11,23,26]Techniques of رعزاد د ي خ ر ق ت اىج ب بد رق بد أظبى ت دد دح رز ن خالى ب امزشبف االرغب بد اى بذط اىاا خ ف قبد س مج سح اىج ب بد ن اظزادا اؽدح أ أمضس ر األظبى ت, مب ر : اوال : انتصنيف :)Classification( ز ف اىزظ رؾي و غ دخ اىج ب بد ىزن غ دخ اىق ادد اى زغ عخ اىز ن أ رعزاد ىزظ ث ب بد اىزشم و إى غ دبد ثؾعت طابد ع خ, إ : أ غبد اى عي بد اىز رزعيق ثبىاظب ض اى شزسمخ, ىيزظ أد اد دد دح ضو: أ ال : شغسح اىقساز.)Decision Tree صب ب : اى غب ز األوسة.)Nearest Neighbor صبىضب : اال ؾداز.)Regression ثانيا : االقرتان :)Association( اىقبددح اىز رزؼ دالوبد اوزسا صبثزخ ث غ دخ األش بء ف وبددح اىج ب بد, أ االوزسا ث ؽد س ؽدس ب, ؽد س ؽدس آخس غبىجب ب رع ظيعيخ اىع ق Market Basket.)Analysis ثانثا : انتحهيم املتطهطم Analysis( :)Sequential شج االوزسا ػع رؾذ ع رؾي و اىسثؾ )Link Analysis ىن سرج ب ثبىص, ف جؾش د بذط رؾدس ثبىززبثع, أ : زعب و ع اىج ب بد اىز رؾدس ف ؽبالد اظيخ. راتعا : انتدميع او انعنقذج :)Clustering( رق خ رغ ع اىن ب بد اى زشبث خ ظ خ راظي ب د اىج ب بد غ س اى زشبث خ ف غ دبد ازياخ, رعز د ثظ زح أظبظ خ دي و بض اى عبفخ رعد رق خ اى غب ز األوسة )Nearest Neighbor شنال آخس ىيزغ ع, إذ اى ن أ رن بك ابر ؼ ازياخ الص أد اد اىز ق ت دي اىج ب بد اع ب. ازي اىزغ ع )Clustering د اىزظ )Classification ثأ ف األ ه ال رعسف ب ظزن دي اىزغ عبد د د اىجدء أ ثأ خ طاخ ظززغ ع اىج ب بد. جملة العلوم االقتصادية واإلدارية 093
رعزاد ف اىزغ ع أد اد ضو: أ- ز ظؾ.)K means ب- اىشجنبد اىعظج خ.)Neural Networks -4 أدواخ أضانية تنقية انثياناخ Methods( :[15,25,27])Tools of بك اىعد د األد اد )Tools اىز رعزاد ف رق بد ر ق ت اىج ب بد ر األد اد ز دخ ىنو [25] ب د ز اد غسع ع ر األد اد 10-15 Crows, :1999 )Tow : اوال : أشدار انقرار Trees( :)Decision شزقخ اإلؽظبء اىرمبء االط بد ؽ ش رعزاد االزرجبؽ ف اىج ب بد رعزاد االظزداله اإلؽظب دي و ادد اىع و رعد أظبض ث بء اى ذط اىز جغ م ب ن أ رعزاد ف اىشجنبد اىعظج خ م دخالد. ثانيا : انشثكاخ انعصثيح Networks( :)Neural وس جخ أشغبز اىقساز ىن ب أطعت ف ب رقد بذط ذاد و ح ر جغ خ أفؼو رزن ؽجقبد اى دخالد )Layers رسرجؾ ثعقد اى جقبد اى اا خ )Hidden Layers اىز رسرجؾ ثد ز ب ثعقد ؽجقخ اا خ أخس ؽز ؽجقخ اى اسعبد )Out Put Layer ؽ ش رؼ اؽد أ أمضس اى زم ساد اىزبثعخ. ثانثا : االحنذار :)Regression( عزاد اال ؾداز ف اىز جغ ثبىق اىغد دح ثبالدز بد دي اىق اى ع دح عزاد اال ؾداز اىا ىيؾبالد اىجع خ, أ ب اىؾبالد اى عقدح اىز ظعت اىز جغ ث ب عزاد اال ؾداز اى عج أل ب رعز د دي رابدالد عقدح ى زم ساد زعددح. راتعا : انتنثؤ :)Predictor( ر جأ ثبىق اى عزقجي خ غ س اى عس فخ ثبالدز بد دي ظالظو رم س اىص ىي ز جئبد, ف غخر ثبىؾعجب اىا اص اى صح ىيص مزدزط اى دد اى ظ خ. خامطا : اضتنتاج انقاعذج Induction( :)Rule ف ب ز اشزقبق غ دخ اىق ادد اى عزقيخ دي خالف أشغبز اىقساز ف ال رأر شغسح, ود ال رم اىق ادد اى ن خ مو اىؾبالد اى ن خ م ب أ ب ود رزعبزع ف ر جغار ب. ضادضا : اجملاور األقرب Neighbor( :)K- Nearest أ فنسح اى غب ز األوسة رغظط دي أ ؽو اى شبمو اىغد دح ن د ؽس ق الؽ خ عسفخ ؽي ه اى شبمو اى شبث خ اىز ر ؽي ب عجقب. ضاتعا : انتحهيم انتمييسي Analysis( :)Discriminate أداح رظ رغد اىع ػ اى زعددح اىز راظو اىائبد ن اى ذط اى برظ ظ و اىزم س أل مو ب دي اى عزاد رؾد د عب ت اىاؾ اىر رقع دي اى ق خ. ثامنا : اإلضناد :[33])Boosting( رعز د دي أخر د بد دش ا خ زعددح اىج ب بد ث بء ذط اىزظ ىنو ب, زم س ػع اىج بء ثبالدز بد دي ز غخ اى بذط اىعبثقخ ن اىزظ األخ س اىائخ األمضس راظ ظب وجو اى بذط [33]. )Dasid H.A Firet,1996 تاضعا : اخلىارزمياخ اجلينيح Algorithms( :)Genetic ظ ذ ثرىل أل ب رزجع ذط شغ اإلؽ بء اىر ز بفط ف أدؼبء اى شغ اى اؽد اى بذط ىززقد ع دح خظب ظ ب ف اى شغ اىالؽق اى بذط إى أ ز إ غبد اى ذط األفؼو. أ اى عي بد ف اىنس ظ بد اىز رؼ خ اص ث بء اى ذط, فبىا ازش بد اىغ خ رع و أظبظب م س قخ إل غبش اىجؾش اى ع د اى بذط اىغ دح. جملة العلوم االقتصادية واإلدارية 093
5- مقاييص املطافح [30,7] : اى ن أ ج ب أ اع اىج ب بد أ اى زم ساد اىز رعزاد ف األغيت ف اىزؾي و اىع ق د رج ب م ا خ إعساء اىع ي بد دي ب ف د ي بد اىزؾي و, دي فسع أ ر اىج ب بد رؾز دي N اىظابد دي ئخ أشابص, ث د, أو بز, صب ق...اىخ أ خ ازش بد اىع قدح رع و دي اىج ب بد ثبىظ مز ا ر ز : 1( ظا فخ اىج ب بد Data Matrix ن ر ض ي ب ث n اىظابد P اى زم ساد ث بء اى ظا فخ ن n p مب ر : X 11 X if X ip : : : X i1 X if X ip : : : X n1 X nf X np اىظابد ا ؼب -2 ظا فخ غ س ز بصيخ : Dissimilarity matrix ر ر ضو ث n اىظابد n ث بء اى ظا فخ ن n n مب ر : )1( اذ أ : j, i ى عذ ظبىجخ..j, i ق ط اى عبفخ ىيظابد اى ازياخ ث d)i, j إذا مب I j= أ زشبث ب (. أ : = 0 i d)i, j = d)j, اوال : املتغرياخ املقاضح تانفرتج variables( :)Interval scale أ د د ب رن اى زم ساد عز سح مب ر : 1- ؽعبة عده اال ؾسافبد اى يقخ ن : )2( (X 1f + X 2f + + X nf ) M f اذ ا عده و اى زم ساد 2- ؽعبة ق بض اال ؾساف اى ع بز أ Z-score )3( جملة العلوم االقتصادية واإلدارية 090
اذ ا S f اال ؾساف اى ع بز أ و بض اى عبفخ االوي د خ ىنو ش ط اىظابد ن : )4( ؽ ش ): in i= (X i1, X i2,., X J= (X j1,x j2,..,x jn ) بك ق بض )Manhattan ىق بض اى عبفخ ن ثبىشنو االر : )5( مال اى ق بظ ىي عبفخ Euclidean Manhattan ؾققب ا ر : 1- ى عذ ظبىجخ -2-3 اى عبفخ ى اط اىظاخ رعب طاس اى عبفخ داىخ ز بصيخ, ؽ ش h طاخ أخس. -4 ثانيا : مقياش املتغرياخ انثنائيح :Binary variables عزع و را اى ق بض ىؾعبة دد اىزشبث ث طابد اىج ب بد خاله و بض اى زم ساد اىض ب خ اى ز بصيخ أ غ س اى ز بصيخ مب ر : Euclidean distance = (2 2 +3 2 ) 1/2 = 3.61 Manhattan distance = (2+3) =5 إ اىشنو 1( االر ج و بض اى عبفخ االوي د خ ب بر )Manhattan ى 2 اىظابد : 5 4 )3,5( 3 2 (1,2) 1 0 1 2 3 اىشنو 1-1( ج و بض اى عبفخ ىظاز ف خ ازش خ اىع قدح جملة العلوم االقتصادية واإلدارية 093
ن اى زم س اىض ب يل طاز فقؾ ب,0 1 ؽ ش : 0 ضو أ اى زم س غ بس عب د, 1 ضبو أ اى زم بس ؽبػس. عد دب اى زؾ الد اىض ب خ: اىج ب بد اى ز بظسح )Symmetric اذ ا r, s ددد ساد االخزالف. q ددد ساد اىزشبث اىمسػب غز عب ث اط اىظاخ(. t ددد ساد اىزشبث اىمسػب ال غز عب ث اط اىظاخ(. اىج ب بد اىم س ز بظسح )Asymmetric ثعد ر ض و اىج ب بد ق ثزشن و ظا فخ دد اىزشبث. ثانثا : قياش املتغرياخ انرتثىيح variables( :)Ordinal رشج اى زؾ الد اى يقخ )Absolute variables ىن ف ر اىؾبىخ غخر اىزسر ت ثع اىع ب خ ضال دزعبد اىزقد س دمز زا, بععز س, ثنبى ز ض, دثي, إدداد خ( فزع اىسرت 5( 4, 3, 2, 1, ف ظجؼ ىد ب غبه اىزظ } {1,...,m, ؽ ش m= 5. ف ب أر خ اد رشن و اى ظا فخ: -1 ؾ ه اى غبه } m, {1 إى اى غبه 1} {0, خاله اىعالوخ االر خ: 2- ق ث عبىغخ اى زؾ الد اى برغخ مأ ب زؾ الد اى غبه. 3- ق ثؾعبة اى عبفبد. 4- ص شنو ظا فخ دد اىزشبث. اذ ا f ر يل M f ؽبىخ سرجخ,, M f 1 f ر يل i th اىظابد ى x if [9] -6 تىزيع )F( : اذا مب بك زم ساد )Q,W مو ب ز شع ثظ زح عزقيخ ر ش ع ) سثع مب, اذا وع مو بب ديب دزعبخ اىؾس بخ اى ببظسح ىب فبب اى عبجخ اى برغبخ ب وعب خ اؽبد ب دبو االخبس رعب عبجخ اىزجبب, ا اىز ش بع ى بب ب ر ش بع F( فب ؽبىبخ اخزجببز رعبب اال ظببؽ فإ بب وبد ا عبد ب عبجخ غ ب ع اى سثعببد ثب غ ع اى سثعبد داخو ا ا ط مخ : جملة العلوم االقتصادية واإلدارية 093
اذ أ اىجعؾ اى قب ب رقد سا غ س زؾ ص ىزجب اى غز ع ن رجع ؾ ر اى عجخ م ب أر : أ ر اى عجخ ا ؼب ى ب ر ش ع F د د ب رن ا ظبؽ اى غ دبد ) غ س زعب خ فب رقد س اىزجب ب غ ب ع سثعببد ثب ( عبب ب اىب ؽ بش <C Zero ثبى ز غبخ فبب عبجخ اىزجبب اىب و بخ F ظبزنجس ب صب ظب ن فب شبل فب رعب اال ظبؽ اى غ دبد ا اىع بد. نبب طبب بغخ غ بب ع اى سثعبببد اىني ببخ غ بب ع اى سثعبببد ثبب اى غ دبببد غ بب ع اى سثعبببد داخببو اى غ دبد ثبىشنو االر : (1-1) (2-1) ج اىغد ه F 1-1( رقد س اىزجب ج اى غ دبد داخو اى غ دبد رقد س F ى ظدز اىزجب ( S.O.V ): ظبدز اىزجب دزعخ اىؾس خ غ ع اى سثعبد ز ظؾ اى سثعبد )S.o.v DF SS MS رج اى غ دبد Between groups t-1 داخو اى غ دبد Within groups N-t total اىنو N-1 عد ه 1-1( : رؾي و اىزجب ى ع بز اؽد جملة العلوم االقتصادية واإلدارية 093
-6 خىارزميحK-Means [31] : اىزعس اىجع ؾ ىع قدح K-Means رظ اىج ب بد إى غ دبد األش بء رغظط دي طابد )Attribute ف K ددد اى غ دبد, ؽ ش K ددد طؾ ؼ عت. أ خ ازش خ K-Mean ىيع قدح رغظط دي اى سمص )Center Based خ ازش خ رق خ رق ثؾو شبمو اىع قدح ث ساؽو )Steps زعددح. رعسف K-Mean ثأ ب عده )Centroid اى قبؽ ف اى غ دبد ر جق ث األثعبد )Dimension ذاد اى غبه )Space اى عز س. إ خ ازش خ K-mean س ى ب أعصاء غ دبد( ذاد ماب خ عق ىخ اىزجب ىج ب بر ب ػ اىظ اى اؽد اى ن رأ ذىل ثبىزؾي و اىس بػ اىزغبزة اىع ي خ, أػ إى ذىل أ K-Means زظ ثسا ظ ظ يخ اوزظبد خ اى بؽ خ اىؾعبث خ ىرىل فأ ب ظ يخ ف اىع ي بد اىجسا ظ اىز رعزاد اىع بد اىنج سح. خ ازش خ K-Mean أؽد اىا ازش بد اىز ن ف ب رؾي و اىج ب بد ؾقق غ دخ ث ب بد عد دح ا دح ثعجت ثعبؽخ خ ازش ز ب, م ب ز خ عج ب, ماب خ ع دح, رغ ت دي مو االظزاعبزاد ى غ دبد اىج ب بد اى ازياخ. أ رؾي و خ ازش خ K-Mean ف اىع قدح رؾدد خاله: 1- رن د بو د ضبى خ :)Clustering membership optimal أ مو ق خ دؼ )member ف اىع ق د رن األوسة إى اى سمص. 2- ثي غ األ ضي خ ىي ؾز : أ أ مو قبؽ اىع بو د رؾقق األ ضي خ إى اى سمص )Centroid ثبىزشبث اىزقبزة ث ب. أضاضياخ خىارزمياخ [31,7] K-Means : أ رق خ اىع قدح ى K-Means أؽد اىا ازش بد اىجع خ اىز رزجع ددح ساؽو )Steps م ب ف اى قبؽ أد ب : :Step 1 اخز بز k اى قبؽ اىز ر ضو اى سامص )Centroid األ ى خ ؽ ش K ر ضو أ ؼب ددد اىع بو د اى ي ثخ. :Step2 راظ ض اى قبؽ ؽعت اىظابد )Object إى أوسة سمص ىيع ق د. :Step3 ز اؽزعبة سامص اىع بو د -K( Centroid عد د. :Step4 ع د اىا ح 2( ؽز رن مو اى سامص ز بصيخ أ زقبزثخ ع ثعؼ ب. ف اىشنو 1-2( ج د و )K-mean اىر ػؼ د ي خ اىع قدح ع صالصخ سامص )Centroid ؽ ش أ اىع ق د اى ب ن زاثع رنساز. جملة العلوم االقتصادية واإلدارية 093
Iteration 3 Iteration 2 التكزار 3 Iteration 0 Iteration 4 التكزار 3 (1-3) اىشنو 1-2( ج اظزع به خ ازش خ K-Means ىمسع ر ػ ؼ اى ا ؾ اال ع بث ىا ازش خ ج ى ب اىشنو اى ا ؾ اال ع بث ى ب. اىا ازش خ ثؾعت جملة العلوم االقتصادية واإلدارية 093
البذاية ادخال مصفىفة البيانات للعناقيذ خىارسمية K-Means تنفيذ خىارسمية K-Means اظهار نتائج خىارسمية K-Means في جذاول رسم مخطط بياني للنتائج النهاية اىشنو 1-3( ػؼ اى ا ؾ اال ع بث ىا ازش خ K-Means جملة العلوم االقتصادية واإلدارية 099
-1 املقذمح :Introduction املثحث انثاني/ اجلانة انتطثيقي: فبب اىغب ببت اىز ج قبب ر ب ىببذ اىدزاظببخ اىج ب بببد اىابطببخ ث زم ببساد اىداىببخ اىزبب ر ضببو اى ببالك اىزدز عبب اى زم ساد V( ا اى شب داد ىزسث خ ؾبف خ اال جبز اى ج خ ف اى الؽق. رب ظبؾت د بخ ن بخ ب 100( شبب دح ا ا ؽغب اىع بخ 100=n( ؽ ببش } n X={X 1 X, 2 X,., ا ددد اى زم ساد اىز وع االخز بز دي ب د خ اىجؾش 5=m دي ب ا مبو زم بس ب بر اى زم بساد V ضو ددد اىظابد اىابطخ ثنو زم ساد اىجؾش ىيج ب بد ف اى يؾق. ف اىجس ب ظ اىز ج ق رب ر ج بق خ ازش بخ )K-Means ديب د بخ اىدزاظبخ اظ بسد اى زبب ظ م بب فب اىغد ه )2-1). 2- املتغرياخ وانصفاخ: ا ال : اىغ ط : زؼ اى زم س طاز ب ذمس, ا ض ( ود اد ى ب اىس ص 2,1( دي اىزسر ت. صب ب : اىؾبىخ اىعي خ اىش بدح: ش و زم س اىؾبىخ اىعي خ اىظابد دمز زا, بععز س, ثنبى ز ض, دثيب, اخس ) ود ر ر ض ي ب ثبىس ش 5,4,3,2,1( دي اىزسر ت. صبىضببب : اىزاظببض: ببرا اى زم ببس شبب و االخزظبطبببد اىزبى ببخ اظببال خ, رسث ببخ ز بػبب خ, ربببز خ,عمساف ببخ, ا ني ص بببببببخ, دسث بببببببخ, ف ص ببببببببء, ز بػببببببب بد, م ببببببببء, ديببببببب ؽ ببببببببح, ف بببببببخ( وبببببببد ضيبببببببذ ثببببببببىس ش 11,10,4,5,6,6,5,4,3,2,1( دي اىزسر ت. زاثعببب : اىدزعببخ اى ظ ا ببخ : شبب و زم ببس اىدزعببخ اى ظ ا ببخ اىببدزعبد اال ىبب, اىضب ببخ, اىضبىضببخ, اىساثعببخ, اىاب عخ, اىعبدظخ, اىعبثعخ, اىضب خ ) ود ر ر ض ي ب ثبىس ش 5,6,6,5,4,3,2,1( دي اىز اى. خب عب : اىع ا اى ظ ا : ش و { دزض اود ا ه عي عب ع اود ا ه(, دزض اود عي عب ع ا ه(, دزض ا ه عي عب ع (, دزض صب عي اود ا ه(, دزض صبىش عي اوبد صبب (, بدزض زاثبع عيب صببببببب (, عيبببببب صبىببببببش, عيبببببب زاثببببببع, عيبببببب خببببببب ط, ببببببدزض, عيبببببب رز ضببببببو ثبببببببىس ش بببببب 10,4,5,6,6,5,4,3,2,1( دي اىزسر ت. 3- املقاييص املطتخرخح: ر اظزاساط ثعغ اى قب ط االؽظب خ عدا ه اىجس ب ظ ا ب: ا ال : ق بض اخزجبز F-Test را اى ق بض م ب عي ق ط اخزجبز عجخ رجب غ دز ا د ز ثدزعز ؽس خ 1-n ىنو ب ا ىدزعز ؽس خ اىجعؾ اى قب, ا ق بض F-Test ج رشزذ ا رجب اىج ب بد فب اىع بو د اى ازياخ ىج ب بد اىع خ ا زم ساد اىجؾش. شزسؽ ف را ى ق بض ا رن االخ ببء عبزقيخ ب ابسدح اىب اخبس رزب شع ؽج ع بب ثبى عجخ ىظ مخ : F-test )ei~n(0, ا بب OR : اذ ا MSR=SSR/(n-1) MSC=SSC/(n-1) صب ب : ق بض )Mean square error MSE ا ق بض MSE ى امضس ط مخ ا اىظ مخ اى جقخ ف خ ازش بد ر ق ت اىج ب بد ػ ع اىدزاظخ اذ ا n-p دزعخ ؽس خ اىا أ P دد اىظا ف صبىضببب : دببدد اىزنببسازاد )Iteration History قظببد ث ببب دببدد ببساد اعببساء اىعي بببد ىيا ازش ببخ ىؾبب اىؾظ ه دي اى ز ظبؾ اال ضبو مي بب مبب دبدد اىزنبسازاد اوبو نب اىزجبب ثب اىج ببد اطبمس, ب صب فبب اى ط ه اى اال ضي خ ن ث س ق اوظس. جملة العلوم االقتصادية واإلدارية 333
4- اضهىب انعمم: ر اخز بز ؽغ د بد رن ال خ ىع ي بد ر ق ت اىج ب بد ثؾ بش رزبسا ػ ب اىع ببد اىظبم سح اىب اىع بد اىنج سح 25=n1 ),100=n2 ود اعس ذ د ي خ اىع قدح ذىل ثبخز بز دبدد د بو بد اىج ببد ثشبنو ببببببب اش ىؾغببببببب اىع ببببببببد ا رنببببببب اىع بو بببببببد طبببببببم سح, ز ظبببببببؾ, مج بببببببسح ) ا ؼبببببببب مببببببببالر )K3=15,K2=10,K1=5 دي اىزسر ت ىنو د خ, ذىل ى الؽ خ د رأصس د ي خ د قبدح اىج ببد ثنبو ب ؽغ اىج بد ددد اىع بو د. -5 حتهيم اننتائح) results :)Analyze the ر رؾي و اى زب ظ ىا ازش خ )K-Means م ب ف ب أر : ر ر ج ق خ ازش بد اىع قدح )K-Means ثؾعت اىع بو د K ىنو د خ n م ب ف ب أر : n1=25 n2=100 K1=5 K2=10 K3=15 K1 =5 K2=10 K3=15 شنو (2-1) ج ر ش ع اىع بو د (K) دي اىزغسثز الؽ خ اى زب ظ ف عد ه اىزؾي و (2-1) االر : زج ىد ب د اىعالوخ ث ؽغب اىع قب د (K) ىنبو د (n) د ز اىجؾش ع و خ االخزجبز (F-test) ىنو زم س (v) زم ساد اىدزاظخ : F-test ؽغ اىع خ V1 V2 V3 V4 V5 25-5 2.836 5.918 25.928 18.338 48.095 25-10 5.333 3.489 42.924 48.523 67.807 25-15 2.806 5.914 63.351 0.000 0.000 100-5 9.341 45.747 77.670 117.451 161.996 100-10 5.663 936.660 64.152 227.274 280.926 100-15 4.600 24.874 102.294 250.906 334.852 عد ه 2-1( ج و خ F-Test ىي زم ساد ىنو د ق د ىؾغ اىع بد اى ازياخ د د الؽ خ عد ه 2-1( زج عسفبخ ربأصس F-Test ثنبو ب n( ؽغب اىع بخ (K) ؽغب اىع قب د مبرىل الؽ خ د رأصس مو (F,n,K) ىنبو ب اى زم بساد اىا عبخ ألغبساع اىع قبدح ب خباله االشبنبه اى ج بخ ث ب ب ف ب أر : جملة العلوم االقتصادية واإلدارية 333
شنو 2-2( ج رغبزة 25=n( ىيع بو د K اى ازياخ الؽ خ اىشنو اىعبثق رج ى ب ا و خ F( رزأصس ثنو زم س اى زم ساد اى أخ ذح ف اىجؾش ىيزغبزة اىضالصخ اال ى د د 25=n( الؽظ ا و خ F( االدي رع د ىي زم س اىاب ط V5( ف ؽ ا و F( االد رع د ىي زم س اال ه V1( ىيزغسثز اال ى اىضب خ ا ب اىزغسثخ اىضبىضخ فقد ر ص اى زم س اىضبىش ثزقد F( االدي ثبى قبز خ ع اى زم ساد االخس. شنو 2-3( ج رغبزة 100=n( ىيع بو د K اى ازياخ الؽ خ اىشنو 2-3( اىعبثق رج ا و خ F( اخرد و ب زقبزثخ ىيزغبزة اىضالس د د اى زم س V3 ف ؽ ا ب اخرد و خ سراعخ عدا د د اى زم س V2 ص ا ااؼذ و خ F( ىززقبزة ع ثعؼ ب د د اى زم س اىضبىش V3 اى زم س اىساثع V4 اى زم س اىاب ط. V5 جملة العلوم االقتصادية واإلدارية 333
ث عز زظ االشنبه اىعبثقخ أ و خ F( ف اى زم س اىضبىش V3 ىؾغ اىع بد ىيزغبزة 25=n( اخرد اى زم س اىضبىش V3 مق خ ادي ثق خ اى زم ساد ف ؽ ا ف اىزغسثخ 100=n( رن و خ F( االدي ف اى زم س اىضب V2 را اعس ا افؼو د قدح ثبى عجخ ىيزغسثخ (25-5) ىي زم س V3 ف ؽ ا اى زم س V2 مب االفؼو ثبى عجخ ىيزغسثخ (100-10). ثبىع دح اى اى زب ظ ف اىغد ه 2-1( اىغدا ه اىعبثقخ ا خ ازش خ اىع قدح ود اخزياذ ثؾعت ظس ف اىزغسثخ اى ز ضيخ ثؾغ اىع خ n ددد اىع بو د K ددد اىزنسازاد ثم خ اى ط ه اى اىع قدح اال ضو فؼال د دب د خ مو اسدح ا د ظس اى مو د ق د ر رازي سؽيخ اى اخس زم س اى اخس. االضتنتاخاخ : 1- رغت الؽ خ د رأصس اىع قدح االوو ث س ف اىزغسثخ ددد اى اسداد( فؼال د ددد اىع بو د اى ي ثخ K. 2- ا و F( ود رمب سد ف ب ث ب االدي اى االوو ف الؽظ ا ادي و خ ى F( مب ذ ىيزغسثخ 100-10( ىي زم س اىضب V2( اىز ر ضو اوو و خ ى.MSE ا ب ثبى عجخ ىيزغسثخ 5-25( فب و خ F( اخرد اوو و خ د د اى زم س اال ه V1( اىز رن ف ب و خ MSE ادي اىزغسثخ اىعبثقخ ا ا د قدح اىج ب بد ثبى عجخ ىي زم س (V2) االفؼو. 3- ن ىي ط ه اى اىع قدح اال ضو ثبى س ز ثأدداد ازياخ اىزنسازاد ثم خ اى ط ه اى اال ضي خ اى يقخ ؾعت طابد (Object) زم ساد اىجؾش (V). 4- ا خ ازش خ اظ سد االشنبه ا د د رم س ظس ف اىزغسثخ رن زب ظ اىا ازش خ زمب سح ؽ ش اى ع اى اسداد اىز زين ب مو د ق د ) اىعدد ددد اى اسداد داخو اىع ق د(. 5- ف عد ه خ ازش خ اى ضي ن اىزمب س F( ث اىع بو د اى ازياخ ف اوظ ب ن ن د د ب MSE اوو ب ن, ث ب ن اىزمب س F( داخو مو د ق د ف اوو ب ن. انتىصياخ : 1- ن ادز بد زب ظ خ ازش بد اىع قدح ف اىز ق ت د اىج ب بد الظ ب د د ب رن ادداد اىج بد مج سح عدا ؽ ش رز ن اى زب ظ اى ط ه اى اى اسدح اى ي ثخ ثعدد اى س ز ثبى سق االوظس ى ر اى زب ظ. 2- ثبإل نب ش بدح ددد اى زم ساد V( ىي ط ه اى د قدح أ ضو رؾقق زب ظ ثؾش رظ ف و ادد اىج ب بد ثأوظس وذ ىنو زم س زم ساد اىجؾش. 3- ن اظزع به خ ازش خ اىع قدح ع خ ازش خ اىرمبء اىظ بد Intelligence) (Artificial را ب ع ف رقي و اىغ د اى وذ ف اى ط ه اى اى عي خ. 4- ن اظزع به خ ازش بد د قدح اخس ضو (Ward) ا (Seeded) ألغساع اى قبز خ اىجؾش د اال ضي خ (Optimization). 5- ا رق بد اىع قدح ن ا رزعب و ع ث ب بد اىؾن خ االىنزس خ اىرم خ را ب ز يت ادز بد زب ظ اىع قدح ف اى ط ه اى و ادد اىج ب بد اىؼا خ اىز اى ن اىدخ ه خالى ب ف دا سح اىجؾش اىال ز ب خ اىز رؾزبط اى ادىخ ثؾش را ب رقد زب ظ خ ازش بد اىع قدح. جملة العلوم االقتصادية واإلدارية 330
املصادر انعرتيح : 1- ظببب ا ا فبببغاد دج بببدا قرق ببببد اىز ق بببت فببب و ادبببد اىج ب ببببد اظزنشببببف فببب اى عي ببببد اى اجبببأح ف بق 1995. 2- ؽعببببب ا أ. ؽ ببببببزا شبببببالة ا د ببببببز: قاىز ق بببببت فببببب اىج ب ببببببد اراببببببذ اىقبببببسازادق, مي بببببخ اىعيببببب االوزظبد خ, عب عخ ى د, 20 ا( 1995 ). 3- اىعبببالقا ثشببب س دجببببض: قاالدازح اىسو بببخ اىز ج قببببدق, سمبببص اال ببببزاد ىيدزاظببببد اىجؾببب س اىرار بببخ.2005,83 4 -اىعيببب ا دجبببد اىقببببدز, و بببد وا دبببب س اثبببسا, اى بببس ا غعبببب قاى بببدخو اىببب دزاظبببخ اى عسفبببخ ادازح اىع سحق د ب, 2006. 175 5 -اىعب سا اى بء دجد اىظ دا ق و ادد اى عي بدقا اىعساق عب عخ ثمداد 1988(. 20 6 -اىع ببببسا ا ؽ ببببد ثبببب اثببببسا اىعج ببببد ا ببببد و شبببب مذ : قاىبببب د اى عي بببببر اىؾن ببببخق, اىس بببببع نزجخ اىسش د ص 89-88 2007(. 6 -زؽ ببببخا ى ببببد دجببببد ت : قاظببببزادا اىزؾي ببببو اىع قبببب د رؾي ببببو اال ؾببببداز فبببب رشببببا ض ا ببببساع اىقيتق, اىغب عخ اى عز ظس خا 1995. 5 -طبببد ق ا زػببب ا دجبببد اىعص بببص ا غ بببداء : ق رق ببب طبببؾخ اىع قبببدح ق غيبببخ اىسافبببد ىعيببب اىؾبظبببجبد اىس بػ بد اى غيد 5 اىعدد 2 2008) 4- اى شبببب دا, م بببببه ديبببب ا : قرظبببب رؾي ببببو اىزغبببببزة-اظببببزادا اىؾبظبببب ة-ق, نزببببت اىغص ببببسح ىي جبدخ اى شس, ثمداد 2010(. املصادر االخنثيح: 10-Houstion Andrea L.& others, Medical on the internet Research on acancer Information system Artifical intelligence Review 2000. 11-Edelstein, Herb, Mining for gold information week. April, 1997. 12- Remach an Ran M.puspa, Mining for Gold wipro technologies 2001 13- Luan Jing, And knowledge Management inhigher Eduction Air Canada 2002. 14- Ahola Jussi & Rinta-Runsala Esa; case studies in customer profiling 2001. 15- spitiopoulou, Myra & phole carsten: to measure and Improve the success of web sites 2002. 16- Friedman I.H and Statistics what in the connection the 29 th sum passion on the information couputing science and Statistics, key note speech Houston (1997). 16- Little R.Rubin D, statistical analysis with missing data widely : New York (1987). 15- Hoes J.kauper M. Data mining concept and technique morgan kaufrnonn, san Francisco.A (2006). 14- Efrom B, Boot strap method Another Look at the Jacknife Amals of statistics 7, 1-26 (1979). 20- Efrom B,cous G: Alies Lrely Look at the Boost strap the Jackife and cress-ualidalion American statistic 37,36-48 (1988). 21- Fland, D. uanni lah. Smuth R. principle of data Mining Mit press London 2001. جملة العلوم االقتصادية واإلدارية 333
22- source, Ranach and ran M. psuhpa, Mining for gold wipro Technologies Decemper 2001. 23- Ramch M. push: for gold wipro technologies 2001. 24- Soni, Sanjay and Tang zhohui and young Jim performance study of Microsoft Algorithins Microsoft 2001. 25-Two crows corporation, Introduction to and knowledge discovery third Edition 1999. 26- Atre shaka, Detining todays Data mining Excutive update Business intelligence Advisory service 2001. 27- Brand Estelle & Gerristen, Rob solution Magazine 1998. 28- Discovering knowledge in By Daniel T.Larose 2005. 29- k- Dustering problem By Eham karousi university of Agder 2002. 30- concept and techniques second Edition By Jiawi Han university of lionois at urbanchampaign Michline kamber. 31-Halkid, y.batistakis M.vozor giannis clustering Algorithm and usability measures 2001. 32- Romney_ Marshall B. and Baul John Standart Accounting information system 9 th ed.upper saddle river prentice Hall (2009). 33- Dasid H.A Firet occurrence of common Jerm in mathematical statistic the American, 121-133 1996. جملة العلوم االقتصادية واإلدارية 333
User for clustering in with application The great scientific progress has led to widespread Information as information accumulates in large databases is important in trying to revise and compile this vast amount of data and, where its purpose to extract hidden information or classified data under their relations with each other in order to take advantage of them for technical purposes. And work with data mining (DM) is appropriate in this area because of the importance of research in the algorithm for clustering data in fact applied with effect can be observed in variables by changing the sample size (n) and the number of clusters (K) and their impact on the process of clustering in the algorithm. Key words :object,data mining, clustering,machine learning,algorithm جملة العلوم االقتصادية واإلدارية 333