Microsoft Word - 1 Sampul Depan.doc 7  PENDETEKSIAN OUTLIER DENGAN METODE REGRESI RIDGE Sri Harini Jurusan Matematika, Fakultas Sains dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang e-mail: sriharini21@yahoo.co.id Abstrak Dalam analisis regresi linier berganda adanya satu atau lebih pengamatan pencilan (outlier) akan menimbulkan dilema bagi para peneliti. Keputusan untuk menghilangkan pencilan tersebut harus dilandasi alasan yang kuat, karena kadang-kadang pencilan dapat memberikan informasi penting yang diperlukan. Masalah outlier ini dapat diatasi dengan berbagai metode, diantaranya metode regresi ridge (ridge regression). Untuk mengetahui kekekaran regresi ridge perlu melihat nilai-nilai R2, PRESS, serta leverage (hii), untuk metode regresi ridge dengan berbagai nilai tetapan bias k yang dipilih. Kata kunci: outlier, PRESS, regresi ridge, R2, Leverage (hii) 1. Pendahuluan Pada analisis regresi berganda sering ditemui satu atau lebih pengamatan tidak sesuai dengan model yang digunakan pada sebagian besar pengamatan lainnya. Hal ini dapat terjadi karena kesalahan dalam pencatatan pengamatan-pengamatan tersebut, kesalahan alat ukur, atau karena ketidakcocokan model yang digunakan. Pengamatan semacam itu disebut pencilan (outlier). Pencilan bisa dihilangkan bila ada penjelasan tentang kasus pencilan yang menunjukkan situasi khusus yang tercakup dalam model. Pencilan dalam data regresi berganda dapat berpengaruh pada hasil analisis statistik. Pengamatan pencilan mungkin menghasilkan residual yang besar dan sering berpengaruh terhadap fungsi regresi yang dihasilkannya. Untuk itu perlu dilakukan identifikasi terhadap pencilan ini guna melihat kesalahan sampel observasi. (Walker dan Birch, 1988). 2. Kajian Pustaka Pendeteksian Pencilan (Outlier) Seringkali model regresi dibentuk dari data yang banyak mengandung keku- rangan, diantaranya adalah adanya pencilan yaitu pengamatan dengan residual yang besar. Pencilan sering menyebabkan kesalahan dalam pemilihan model, dan biasanya dihilangkan. Kenyataannya, beberapa pencilan dapat memberi informasi yang berarti, misalnya pencilan timbul dari kombinasi keadaan yang tidak biasa yang mungkin penting dan perlu diselidiki lebih lanjut. Oleh karena itu adanya pencilan dalam data perlu diselidiki secara seksama, barangkali dapat diketahui ada alasan dibalik keganjilan itu. Pencilan dapat disebabkan oleh kesalahan dalam data atau status fisik yang ganjil dari obyek yang dianalisis. Kesalahan dalam data berupa gangguan, penyimpangan instrumen, kesalahan operator, atau kesalahan pencetakan (Retnaningsih, 2001). Pendeteksian pencilan terhadap nilai-nilai variabel x, dapat menggunakan matrik topi yang didefinisikan sebagai H=X(X'X)-1X'. Unsur ke-i pada diagonal utama matrik topi disebut leverage (hii). Unsur hii dapat diperoleh dari hii=xi(X'X)-1xi'. Nilai diagonal hii terletak antara 0 dan 1 dan jumlahnya sama dengan p, yaitu banyak parameter regresi di dalam fungsi regresi termasuk suku intersep (Neter, Wasserman, dan Kutner, 1990). Sri Harini  8 Volume 1 No. 1 November 2009 Nilai leverage yang besar menunjukkan pencilan dari nilai-nilai variabel x untuk pengamatan ke-i. Hal ini disebabkan, bahwa hii adalah ukuran jarak antara nilai x untuk pengamatan ke-i dengan rata-rata nilai x untuk semua pengamatan. Sehingga, nilai hii yang besar menunjukkan pengamatan ke-i berada jauh dari pusat semua pengamatan variabel x. Suatu nilai hii dianggap besar apabila nilainya lebih besar dari 2p/n dan dapat berpotensi sebagai pengamatan yang berpengaruh. Regresi Ridge (Ridge Regression) Regresi ridge merupakan salah satu metode yang dianjurkan untuk memper-baiki masalah multikolinearitas dengan cara memodifikasi metode kuadrat terkecil, sehingga dihasilkan penduga koefisien regresi lain yang bias (Neter, et al., 1990). Modifikasi metode kuadrat terkecil tersebut dilakukan dengan cara menambah tetapan bias, k, yang relatif kecil pada diagonal matriks X'X, sehingga penduga koefisien regresi dipengaruhi oleh besarnya tetapan bias, k. Pada umumnya nilai k berkisar antara 0 dan 1. Untuk menentukan penduga ridge, dimulai dari asumsi model linier secara umum, yaitu : y = X β + ε …………………………………… (2.1) dimana : y adalah vektor pengamatan pada variabel respon yang berukuran (nx1) X adalah matrik yang berukuran nx(p+1) dari p variabel bebas β adalah vektor berukuran (p+1)x1 dari koefisien regresi ε adalah vektor berukuran (nx1) dari error Dalam regresi ridge variabel bebas x dan variabel tak bebas y ditransformasikan dalam bentuk variabel baku Z dan y*, dimana transformasi variabel bebas dan tak bebas ke bentuk variabel baku diperoleh dari Z= xs xx − dan y*= ys yy − . Selanjutnya Z'Z= ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ − xs xx . ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − xs xx dan Z'y= ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − xs xx ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − ys yy . Sementara itu rumus dari korelasi rxx= ( ) xx ss xxxx )( −− . Sehingga persamaan normal kuadrat terkecil (X'X)b=X'y akan berbentuk (rxx)b=rxy, dengan rxx adalah matrik korelasi variabel x dan rxy adalah vektor korelasi antara y dan masing-masing variabel x. Akibat dari transformasi matrik X ke Z dan vektor y ke y*, maka akan menjadikan persamaan normal regresi ridge berbentuk : (rxx+kI) *b̂ =rxy. Penduga koefisien regresi ridge menjadi : *b̂ =(rxx+ k I)-1 rxy ………………………………………………………………… (2.2) dimana : *b̂ adalah vektor koefisien regresi ridge rxx adalah matrik korelasi variabel x yang berukuran pxp rxy adalah vektor korelasi antara variabel x dan y berukuran px1 k adalah tetapan bias I adalah matrik identitas berukuran pxp. Masalah yang dihadapi dalam regresi ridge adalah penentuan nilai dari k. Prosedur yang cukup baik untuk menentukan nilai k ini adalah dengan menggunakan nilai statistik Cp-Mallows, yaitu Ck. Statistik Cp-Mallows adalah suatu kriteria yang berkaitan dengan rata-rata kuadrat error (mean square error) dari nilai kesesuaian model. Nilai k yang terpilih adalah yang meminimumkan nilai Ck (Myers, 1990). Nilai Ck dapat dirumuskan sebagai berikut : 2σ̂ k k JKR C = - n + 2 + 2 tr[Hk] ……………………………… (2.3) dimana : JKRk adalah jumlah kuadrat residual dari regresi ridge n adalah banyak pengamatan Pendeteksian Outlier dengan Metode Regresi Ridge   Volume 1 No. 1 November 2009 9 Hk = [Z(Z'Z+kI)-1Z'] dengan I adalah matrik identitas tr [Hk] adalah teras dari matrik Hk 2σ̂ adalah penduga varian metode kuadrat terkecil Acuan lain yang digunakan untuk memilih nilai k adalah dengan melihat nilai VIF (Myers, 1990). Nilai VIF untuk koefisien regresi ridge *b̂ didefinisikan sebagai diagonal dari matrik (rxx+kI)-1rxx(rxx+kI)-1 . Rumusan ini didapat dengan serangkaian proses sebagai berikut : Jika di metode kuadrat terkecil diketahui nilai koefisien penduga b̂ dan varian( b̂ ): b̂ = (X'X)-1 X'y dengan y=X b̂ Varian( b̂ ) = 2σ (X'X)-1 Dalam regresi ridge harga *b̂ dan varian( *b̂ ) diketahui sebagai : *b̂ = (X'X+kI)-1 X'y = (X'X+kI)-1 X' Xb Varian( *b̂ ) = 2σ (X'X+kI)-1 (X'X) (X'X)-1 (X'X) (X'X+kI)-1 = 2σ (X'X+kI)-1 (X'X) (X'X+kI)-1 Sehingga VIF merupakan diagonal matrik (X'X+kI)-1 (X'X) (X'X+kI)-1. Bila x diba- kukan, maka VIF dari regresi ridge adalah diagonal dari matrik (rxx+kI)-1rxx(rxx+k I)-1. Leverage dalam Regresi Ridge Ketika teknik bias digunakan pada regresi ridge, untuk mengurangi efek dari multikolinearitas, maka rumus pencilan di dalam data tersebut dapat dimodifikasi. Seperti halnya di dalam metode regresi kuadrat terkecil, maka pencilan dalam regresi ridge dapat diukur dengan nilai leverage (hii). Untuk itu nilai hii pada regresi kuadrat terkecil berubah sebagai fungsi dari k, guna mendapatkan nilai hii pada regresi ridge (Retnaningsih,2001). Dengan memakai penduga (2.2), maka nilai-nilai vektor dugaan y adalah : *ˆiy = Z b* = Z(Z'Z+kI*)-1Z'y Oleh karena itu, matrik H untuk regresi ridge menjadi H*=Z(Z'Z+kI*)-1Z', dan unsur ke-i pada diagonal utama matrik H* adalah hii* = zi (Z'Z+kI*)-1 zi'. Matrik H* berperan sama seperti matrik H pada metode kuadrat terkecil. Sehingga, nilai dugaan ke-i dapat ditulis dalam bentuk elemen H* sebagai berikut (Walker dan Birch, 1988): *ˆiy = ∑ = n j jij yh 1 * Unsur diagonal matrik topi ridge hii* dapat diinterpretasikan sama sebagai leverage pada diagonal matrik topi pada metode kuadrat terkecil. Lichtenstein dan Velleman (1983) dalam Walker dan Birch (1988) mengung- kapkan beberapa fakta penting dari sifat unsur diagonal matrik H*. Pertama, untuk k>0, maka nilai hii* < hii dengan i = 1, 2, …, n. Dengan demikian, untuk setiap pengamatan, nilai leverage regresi ridge lebih kecil dari leverage regresi kuadrat terkecil. Kedua, leverage menurun secara monoton sejalan dengan kenaikan k. Ketiga, laju penurunan leverage tergantung pada posisi baris tertentu dari Z sepanjang sumbu utama. Artinya, leverage dari baris yang terletak di sumbu utama yang berpadanan dengan akar karakteristik besar akan berkurang lebih sedikit dari pada leverage dari baris yang terletak di sumbu utama yang berpadanan dengan akar karakteristik kecil. Sri Harini  10 Volume 1 No. 1 November 2009 3. Pembahasan Penurunan Rumus dari Regresi Ridge Jika *β̂ adalah penduga dari vektor β , maka jumlah kuadrat residual dapat ditulis (Hoerl dan Kennard, 1970) sebagai berikut : φ = (Y-X *β̂ )'(Y-X *β̂ ) = (Y-X β̂ )'(Y-X β̂ )+( β̂ - *β̂ )'X'X( β̂ - *β̂ ) = minφ + φ ( *β̂ ) dimana β̂ adalah penduga kuadrat terkecil dari β . Untuk φ tetap, maka dipilih nilai *β̂ dan dibuat meminimumkan *β̂ ' *β̂ dengan kendala ( β̂ - *β̂ )'X'X( β̂ - *β̂ )= 0φ , sehingga masalah Lagrange (Hoerl dan Kennard, 1970) menjadi : =F *β̂ ' *β̂ + k 1 [( *β̂ - β̂ )'X'X( *β̂ - β̂ )- 0φ ] *β̂∂ ∂F = 2 *β̂ + k 1 [2(X'X) *β̂ -2(X'X) β̂ ] = 0 *β̂ [1+ k 1 (X'X)] - k 1 (X'X) β̂ ] *β̂ = [kI+ (X'X)]-1 (X'X) β̂ Jadi penduga regresi ridge adalah : *β̂ = [(X'X + kI)]-1 X'Y Adapun sifat-sifat Regresi Ridge sebagai berikut (Marquardt, 1970): 1. Penduga *β̂ adalah transformasi linier dari β̂ , dan transformasi hanya tergantung pada X dan k. *β̂ = [kI+ (X'X)]-1 X'Y, tetapi X'Y = (X'X) β̂ Maka, *β̂ = [(X'X+kI)]-1 (X'X) β̂ = Zk β̂ E( *β̂ ) = Zk β̂ Sehingga *β̂ adalah penduga bias dari β̂ 2. Varian *β̂ adalah : V( *β̂ ) = 2σ [kI+ (X'X)]-1 (X'X) [kI+ (X'X)]-1 V( *β̂ ) = var [kI+ (X'X)]-1 X'Y = [kI+ (X'X)]-1 X' 2σ IX[kI+ (X'X)]-1 V( *β̂ ) = 2σ [kI+ (X'X)]-1 (X'X) [kI+ (X'X)]-1 3. MSE (Mean Square Error) dari *β̂ : E(L2) = Tr[V( *β̂ )]+ β̂ '(Zk-I)'(Zk-I) β̂ = Varian + (bias)2 E(L2) = E[( *β̂ - β̂ )'( *β̂ - β̂ )] = 2σ ∑ = + p j j i k1 2)(λ λ + k2 β '(X'X+kI)-2 β = V( *β̂ )+k2 β '(X'X+kI)-2 β 4. Jika k≥ 0, dan misal *β̂ memenuhi persamaan *β̂ = [(X'X + kI)]-1 X'Y, maka *β̂ meminimumkan jumlah kuadrat residual : *)ˆ(*)'ˆ(*)ˆ( βββ XYXY −−=Φ . 5. Jika *β̂ adalah solusi dari [kI+ (X'X)] *β̂ = X'Y untuk nilai k yang diberikan, maka *β̂ adalah fungsi monoton turun kontinyu dari k, sedemikian hingga pada saat k ∞→ , *β̂ → 0. Pendeteksian Outlier dengan Metode Regresi Ridge   Volume 1 No. 1 November 2009 11 6. Jika ββ ' terbatas, maka ada tetapan k>0 sedemikian hingga MSE dari *β̂ kurang dari MSE penduga kuadrat terkecil 7. Dalam persamaan (X'X+kI) *β̂ = X'Y, g = X'Y adalah vektor gradien dari )(βΦ . Misal kγ adalah sudut antara *β̂ dan g, maka kγ adalah fungsi monoton turun kontinyu dari k, sedemikian hingga k .0, →∞→ kγ Pemilihan nilai tetapan bias k merupakan sesuatu yang tidak dipisahkan dalam regresi ridge. Untuk itu perlu dirunut dari mana asal nilai tetapan bias k tersebut. Untuk melihat *β̂ dari sudut pandang MSE, maka Hoerl dan Kennard (1970) meng- ekspresikan hal tersebut ke dalam bentuk E(L2), dimana : E(L2) = 2σ ∑ = + p j j i k1 2)(λ λ + k2 β '(X'X+kI)-2 β = )()( 2)1( kk γγ + Elemen kedua, yaitu )(2 kγ , adalah jarak kuadrat dari Z β ke β . Elemen )(2 kγ akan bernilai nol, jika k=0, sehingga )(2 kγ dapat dipandang sebagai bias kuadrat. Elemen pertama, yaitu )(1 kγ , merupakan total varian dari dugaan parameter. Total varian dari semua *β̂ j adalah jumlah diagonal elemen 2σ Z(X'X)-1 Z'. Total varian turun seiring dengan kenaikan k, sementara bias kuadrat naik seiring dengan kenaikan k. Total varian )(1 kγ adalah kontinyu, merupakan fungsi monoton turun dari k. 1.)(2 321 −+−= ∑ kdk d jj λλσ γ = -2 ∑ + 3 2 )( kj j λ λ σ Bias kuadrat )(2 kγ adalah kontinyu, merupakan fungsi monoton naik dari k. = dk d 2γ ∑ + +−+ 4 2222 )( ))(2()(2 k kkkk j jjjj λ λαλα = ∑ + −+ 3 22222 )( 222 k kkk j jjjj λ ααλα = ∑ + 3 2 )( 2 k k j jj λ λα ∑ = ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ + − + =+ p j j j j jj kk k dk d dk d 1 3 2 3 2 21 )()( 2 λ λ σ λ αλγγ = 0 022 =− jjjk λσαλ 2 2 j k α σ = Sedangkan untuk rumusan Ck yang digunakan sebagai alternatif pemilihan nilai tetapan bias k dapat diturunkan sebagai berikut (Myers, 1990): ∑ ∑ = = + n i i n i i yBiasyVar 1 2* 1 * ]ˆ[ˆ 2 2 * 1 ][ ˆ k i n i Atr yVar = ∑ = σ Sri Harini  12 Volume 1 No. 1 November 2009 222* 1 )()ˆ( kki n i AItrJKRyBias −−=∑ = σ * 2 2 2 1 2 2 2 2 ˆ( ) ( ) ( ) σ σ σ σ = − −= = − − ∑ n i i k k k k Biasy JKR tr I A JKR tr I A Jadi penduga dari ∑ ∑ = = + n i i n i i yBiasyVar 1 2* 1 * ]ˆ[ˆ diberikan oleh : Ck = E 2)](ˆ[ ii yEy − = [ )ˆ()]ˆ()( 2 iii yVyEyE +− Ck = 2 1 2* 1 * ]ˆ[ˆ σ ∑ ∑ = = + n i i n i i yBiasyVar = +2)( kAtr 2 2 )( k k AItr JKR −− σ = )(22 k k Atrn JKR +− σ Bila *')**'(* 1 XkIXXXH k −+= dan 1)()( += kk HtrAtr Ck = ]1)([2 ˆ 2 ++− k k Htrn JKR σ Ck = )(22 ˆ 2 k k Htrn JKR ++− σ Identifikasi Pencilan Leverage (hii) adalah elemen-elemen diagonal dari matrik proyeksi least squares yang disebut matrik topi, H = X(X'X)-1X', yang menjelaskan pendugaan atau nilai-nilai dugaan, karena : HyXby =≡ˆ . Elemen-elemen diagonal H merupakan jarak antara xi dan .x Oleh karena H adalah matrik proyeksi, maka dia simetris dan idempoten (H2=H). Elemen-elemen dari matrik topi yang dipusatkan adalah : )/1( ~ nhh ijij −= . Hal ini berimplikasi, bahwa 1)/1( ≤≤ ihn . Jumlah akar karakteristik dari matrik proyeksi tidak nol sama dengan rank dari matrik. Dalam hal ini rank(H) = rank(X)=p dan trace H=p, atau karena X rank penuh, maka ∑ = n i ih 1 = p. Ukuran rata-rata elemen diagonal adalah p/n. Data yang diinginkan adalah yang jauh dari pengamatan berpengaruh, dimana masing-masing pengamatan mempunyai hi dekat dengan rata-rata p/n. Untuk itu perlu beberapa kriteria untuk memutuskan kapan nilai hi cukup besar atau cukup jauh dari rata-ratanya. Jika variabel-variabel bebas didistribusikan secara independen, maka dapat dicari distribusi eksak dari fungsi-fungsi tertentu dari hi. Belsley, Kuh, dan Welsch (1980) mengambil teori distribusi untuk mencari batas kritis dari nilai leverage sebagai berikut : Statistik Λ Wilks untuk dua grup, dimana 1 grup terdiri dari titik tunggal : )' ~ det( )~'~)(~)('~)1( ~ ' ~ det( )~( XX xxixixnXX x iii −−− =Λ Pendeteksian Outlier dengan Metode Regresi Ridge   Volume 1 No. 1 November 2009 13 = ) ~ ' ~ det( ) ~ ' ~ det()'~) ~ ' ~ (~ 1 1 1 XX XXxXXx n n ii − − − = 1- ~ 1 i h n n − = 1- ) 1 ( 1 n h n n i −− = )1( 1 i h n n − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ Λ Λ− − − )~( )~(1 1 i i x x p pn ~ Fp-1,n-p Sehingga dapat ditulis : ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − − − − )1( ) 1 ( 1 i i h n h p pn ~ Fp-1,n-p Untuk p besar (lebih dari 10) dan n-p besar (lebih dari 50), maka pada tabel F nilai-nilainya kurang dari 2 sehingga nilai 2(p/n) merupakan batas yang cukup bagus. Selanjutnya, pengamatan ke-i adalah titik leverage ketika hi melebihi 2(p/n). Penurunan Rumus PRESS Rumus PRESS umumnya adalah iii yy −− ,ˆ . Rumus ini bisa ditulis sebagai berikut (Myers, 1990) : ei,-i = yi - xi'b-i ei,-i = ii ii ii ii yXh XXxxXX XXxy −− −− − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − +− ' 11 1 1 )'(')'( )'(' = ii iiiii iiii h yXXXxh yXXXxy − −− −− − −− − 1 )'( )'( '1' '1' = ii iiiiiiiiiiiii h yXXXxhyXXXxhyh − −−− −− − −− − 1 )'()'()1()1( '1''1' = ii iiiiii h yXXXxyh − −− −− − 1 )'()1( '1' = ii iiiiii h yxyXXXxyh − −−− − 1 )'()'()1( 1' = = ii i h yy − − 1 ˆ = ii i h e −1 4. Kesimpulan Masalah pencilan ini dapat diatasi degan berbagai metode, diantaranya metode regresi ridge (ridge regression). Hal ini ditinjau dari ketepatan model, dimana metode regresi ridge memberikan hasil yang relatif lebih baik dibandingkan dengan metode kuadrat terkecil. ii iiiiiii h yhyyh − +−− 1 ˆ)1( Sri Harini  14 Volume 1 No. 1 November 2009 Daftar Pustaka Belsley, D.A., Kuh, E., dan Welsch, R.E, (1980), Regression Diagnostics. John Wiley. New York. Hoerl, A.E dan Kennard, R.W., (1970), Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, Vol. 12, no. 1. Marquardt, D.W., (1970), Generalized Inverses, Ridge Regression, Biased LinearEstimation, and Nonlinier Estimation. Technometrics, Vol. 12, no. 3. Mason, R.L. dan Gunst, R.F., (1985), Outlier-Induced Collinearities. Technometrics, Vol. 2, no. 4. Myers, R.H, (1990), Classical and Modern Regression with Applications. 2nd Edition. PWS-KENT, Boston. Neter, J., Wasserman, W. dan Kutner, M.H., (1990), Applied Linear Statistical Models, Regression, Analysis of Variance & Experimental Design, Richard D. Irwin Inc. Illinois. Toppan Company. LTD, Tokyo. Retnaninsih, E., (2001), Studi Perbandingan Metode Regresi Ridge dengan Kuadrat Trekecil Parsial Pada Struktur Ekonomi dan Tingkat Kesra Penduduk Indonesia. Tidak Dipublikasikan, Tesis Program Master, ITS, Surabaya. Walker, E. dan Birch, J.B., (1988). Influence Measure in Ridge Regression. Technometrics, 25: 221-227.