Inteligjenca Artificiale: Cilësia e Përafrimit Universal

Rrjetet nervore që përdoren në ditët e sotme u bazuan kryesisht te rrjeti Perceptron (për më shumë rreth Perceptronit kalo këtu). Nëse vendosim dy Perceptrone njëri pas tjetrit marrim një rrjet me një shtresë të fshehur. Për më tepër, nëse bashkojmë dy apo më shumë rrjete me një shtresë të fshehur marrim një rrjet shumështresor që quhet ndryshe MLP (Multi-Layer Perceptron – Perceptron Shumështresor). Një nga veçoritë më të rëndësishme të rrjeteve MLP është fakti që janë “përafrues universal”. Kjo do të thotë që një rrjet MLP mund të përfaqësoje dhe përafrojë çdo funksion matematik apo logjik. 

Funksionet Logjike

Përafrimi i shumicës së funksioneve logjike (p.sh. funksionet AND dhe OR) është i mundur edhe nga një Perceptron i thjeshtë me funksion linear të aktivizimit (për më shumë rreth funksioneve të aktivizimit kalo këtu). Bazuar te ligjet logjike të De Morganit, çdo shprehje logjike mund të konvertohet në një shprehje të njëvlershme të formës konjuktive (funksione të ndryshme AND të lidhura me funksionin OR). Në këtë mënyrë, funksionet logjike komplekse mund të paraqiten si një funksion OR i shumë veprimeve AND. Një ilustrim më i detajuar i këtij pohimi gjendet këtu. Rrjeti nervor përkatës mund të ndërtohet me një shtresë të hyrjes që kryen veprimet AND dhe një shtresë të fshehur që kryen veprimin OR. Shtresa e daljes është një neuron i vetëm që jep rezultatin logjik 0 ose 1.

Funksionet e Vazhduar dhe të Kufizuar

Funksionet e vazhduar dhe të kufizuar mund të zbërthehen në një numër të fundëm funksionesh linear që e ndajnë rrjetin koordinativ në dy gjysmëplane. Kombinimi i këtyre funksioneve më të thjeshta përafron funksionet më komplekse. Meqë një rrjet Perceptron mund të përfaqësojë çfarëdo funksioni linear, kombinimi i një numri të fundëm rrjetesh Perceptron mund të përafrojë çdo funksion të vazhduar dhe të kufizuar. Vërtetimi rigoroz i këtij pohimi u dha për herë të parë në vitin 1989 nga Xhorxh Sajbenko (George Cybenko) i publikuar te ky artikull.  

Funksionet e Çfarëdoshëm

Nëse numri i rrjeteve Perceptron që përdoren për të përafruar funksionet e vazhduar dhe të kufizuar rritet vazhdimisht mund të arrihet që të përafrohen edhe funksione të kufizuar e të lakuar si ai i elipsit apo i rrethit. Një rrjet nervor me një shtresë të fshehur mund të përafrojë një rreth me diametër të çfarëdoshëm. Nëse i shtojmë një tjetër shtresë të fshehur e cila do të kryejë veprime OR, është e mundur që të bashkohen kurba të pjesshme rrathësh duke formuar forma të çfarëdoshme të funksioneve të çfarëdoshëm dhe me paraqitje grafike komplekse. Në fakt, përafrimi i serive Furje funksionon në të njëjtën mënyrë dhe pohon se çdo kurbë funksioni mund të zbërthehet si shumë e kurbave më të thjeshta. Përafrimi i funksioneve mund të kryhet pra duke patur një shtresë të fshehur për përfaqësimin e kurbave të thjeshta dhe një tjetër shtresë të fshehur që mbledh ato kurba të thjeshta në një kurbë komplekse dhe të çfarëdoshme (trajtimi rigoroz mund të gjendet këtu).

Rëndësia e Thellësisë së Rrjetit 

Aftësia e rrjeteve të cekëta për të përafruar funksione të çfarëdoshme arrihet vetëm nëse numri i neuroneve në shtresën e fshehur rritet pambarimisht. Kjo bën që rrjete të tilla të mos mund të ndërtohen praktikisht. Një nga problemet më të mëdha ka qenë në fakt gjetja e mënyrës për të ruajtur aftësitë përafruese të rrjetit me një numër të reduktuar të njësive përllogaritëse të tij. Zgjidhja e këtij përdorimi ka qenë përdorimi në praktikë i rrjeteve më të thella (me shumë shtresa të vendosura njëra pas tjetrës). Së pari, vetë nënsistemet nervore në trurin e njeriut (p.sh. nënsistemi pamor) funksionojnë si sisteme të thella. Së dyti, është e natyrshme që konceptet e një niveli të caktuar abstraksioni të paraqiten si kombinim i koncepteve të një niveli (kompleksiteti) më të ulët. Është vënë re se fuqia përafruese e një rrjeti nervore me k shtresa dhe një rritje polinomiale nyjash është e njëjtë me atë të një rrjeti me k-1 shtresa dhe një rritje eksponenciale nyjash. Për këto arsye, rrjetet e thella kanë marë sot përdorim më të gjerë se rrjetet e cekëta. 

Referenca

  1. https://arxiv.org/abs/1702.07800
  2. https://arxiv.org/abs/1802.03646
  3. https://en.wikipedia.org/wiki/Multilayer_perceptron
  4. https://en.wikipedia.org/wiki/Universal_approximation_theorem
  5. http://wwwold.ece.utep.edu/research/webfuzzy/docs/kk-thesis/kk-thesis-html/thesis.html