Chapter 6 - Back Propagation






1. Prosedur Pembelajaran Back Propagation [kembali]

       Algoritma back propagation (BP) diusulkan pada tahun 1986 oleh Rumelhart, Hinton dan Williams untuk mengatur bobot dan karenanya untuk pelatihan multi-layer perceptrons. Ini membuka jalan untuk menggunakan JST multi-layer, tidak ada hidden layer tidak memiliki output yang diinginkan (tersembunyi) yang dapat diakses. Begitu algoritma BP dari Rumelhartet al. Ketika dipublikasikan, itu sangat dekat dengan algoritma yang diusulkan sebelumnya oleh Werbos dalam disertasi gelar Ph.D.-nya di Harvard pada tahun 1974 dan kemudian dalam sebuah laporan oleh D. B. Parker di Stanford pada tahun 1982, keduanya tidak diterbitkan dan karenanya tidak tersedia untuk masyarakat luas. Tak perlu dikatakan bahwa ketersediaan yang ketat metode untuk mengatur bobot menengah, yaitu untuk melatih lapisan tersembunyi dari JST memberi sebuah dorongan besar untuk pengembangan JST lebih lanjut, membuka jalan untuk mengatasi kekurangan single-layer yang telah ditunjukkan oleh Minsky dan yang hampir memberikan pukulan maut pada JST.


2. Derivasi Algoritma BP [kembali]

       Algoritma BP dimulai, tentu saja dengan menghitung lapisan output, yaitu satu-satunya di mana output yang diinginkan tersedia, tetapi output dari perantara lapisan tidak tersedia (lihat Gambar 6.1), sebagai berikut:
 
Disini ε menunjukkan energi kesalahan pada lapisan output, di mana: 

k = 1 ··· N; Tidak ada jumlah neuron di lapisan output. Akibatnya, gradien ε dipertimbangkan, di mana:
 
Sekarang, dengan prosedur penurunan (gradien) paling curam, seperti dalam Sec. 3.4.2, didapatkan

 
j menunjukkan input ke-j ke neuron ke-k dari lapisan output, di mana, sekali lagi dengan prosedur penurunan paling curam:

Tanda minus (-) dalam Persamaan. (6.4) menunjukkan arah turun bukit menuju minimum. Dicatat dari definisi perceptron bahwa simpulout perceptron k yang diberikan oleh

xj menjadi input ke-j ke neuron itu, dan mencatat bahwa keluaran perceptron yk adalah:

F menjadi fungsi nonlinier sebagaimana dibahas dalam Bab. 4 dan harus kontinu untuk memungkinkan diferensiasinya. Sekarang diganti

 dan, oleh Persamaan. (6.5):
p menunjukkan lapisan output, sedemikian sehingga Persamaan. (6.7) menjadi:
 Mendefinisikan:
lalu Persamaan. (6.9) hasil
 

dan, oleh Persamaan. (6.4) dan (6.11):

j menunjukkan input j ke neuron k dari output (p) layer.

Selanjutnya oleh Persamaan. (6.10):
Tapi, oleh Persamaan. (6.1):
sedangkan, untuk nonlinier sigmoid:
 dan didapatkan:
 

3. Modifikasi Algoritma BP [kembali]

3.1 Pengantar Bias ke Jaringan Syaraf

       Seringkali menguntungkan untuk menerapkan beberapa bias pada neuron jaringan saraf (lihat Gambar 6.2). Bias bisa dilatih ketika dikaitkan dengan berat yang bisa dilatih untuk dimodifikasi seperti halnya bobot lainnya. Oleh karena itu bias diwujudkan dalam bentuk input dengan beberapa nilai konstan (katakan +1 atau + B), dan biasbi yang tepat (pada neuron theith) kemudian diberikan

yang menjadi bobot dari istilah bias pada input ke neuron i (lihat Gambar. 7). Perhatikan bahwa bias mungkin positif atau negatif, tergantung pada beratnya.

3.2 Menggabungkan Momentum atau Merapikan Penyesuaian Berat

       Algoritma backpropagation (BP) untuk menghitung bobot neuron mungkin cenderung tidak stabil dalam kondisi operasi tertentu. Untuk mengurangi kecenderungan ketidakstabilan Rumelhartet al. (1986) menyarankan untuk menambahkan istilah momentum ke Persamaan. (6.1). Oleh karena itu, Persamaan. (6.12) dimodifikasi untuk:


untuk iterasi m + 1, dengan 0 <α <1; α menjadi koefisien momentum (biasanya sekitar 0,9). Penggunaan alpha akan cenderung untuk menghindari fluktuasi yang cepat, tetapi mungkin tidak selalu berhasil, atau bahkan dapat membahayakan konvergensi.

       Metode smoothing lain, untuk tujuan yang sama dan juga tidak selalu disarankan, adalah menggunakan istilah smoothing seperti yang diusulkan oleh Sejnowski dan Rosenberg (1987), diberikan sebagai berikut: 


dengan 0 <α <1. Perhatikan bahwa untuk α = 0 tidak ada perataan yang terjadi sedangkan menyebabkan algoritma macet. (6.32) lagi antara 0 dan 1.

3.3 Modifikasi Lain Tentang Konvergensi

Konvergensi yang lebih baik dari algoritma BP sering dapat dicapai dengan:

   (a) memodifikasi rentang fungsi sigmoid dari kisaran nol hingga satu, ke kisaran dari − 0,5 hingga + 0,5.

   (b) Umpan balik (lihat Bab 13) kadang-kadang dapat digunakan.
 
  (c) Memodifikasi ukuran langkah dapat digunakan untuk menghindari algoritma BP dari macet (belajar kelumpuhan) di minimum lokal, atau dari osilasi. Hal ini sering dicapai dengan mengurangi ukuran langkah, setidaknya ketika algoritma mendekati kelumpuhan atau ketika mulai berosilasi.
 
   (d) Konvergensi minimum lokal paling baik dapat dihindari dengan metode statistik di mana selalu ada kemungkinan terbatas untuk memindahkan jaringan dari yang semula tampak atau minimum yang nyata dengan langkah besar.
 
  (e) Penggunaan algoritma BP yang dimodifikasi (ulet), seperti RPROP (Riedmiller dan Braun, 1993) dapat sangat mempercepat konvergensi dan mengurangi sensitivitas terhadap inisialisasi. Ini hanya mempertimbangkan tanda-tanda derivatif parsial untuk menghitung bobot oleh BP, bukan nilai aktualnya.

No comments:

Post a Comment