Referāts
Uzņēmējdarbība un tiesības
Ekonomika
Nosacītu likumu indukciju sistēma kredītu izsniegšanas uz...-
Nosacītu likumu indukciju sistēma kredītu izsniegšanas uzdevumam
Referāts133 Ekonomika, Datori, elektronika, programmēšana, Bankas, finanses, vērtspapīri
Nr. | Sadaļas nosaukums | Lpp. |
1.1.1. | Saīsināšana pēc kļūdas grūtības (Err-Comp) | 4 |
2. | UZDEVUMA NOSTĀDNE | 8 |
2.1. | Uzdevuma saturīgā nostādne | 8 |
2.2. | Uzdevuma formālā nostādne | 8 |
3. | IZMANTOJAMĀS METODES | 9 |
3.1. | Koka izveidošanas algoritms | 10 |
3.1.1. | Jaunu piemēru klasifikācija | 20 |
3.2. | Uzlabotājs sadalīšanas kritērijs | 20 |
3.3. | Izlaistie dati | 22 |
3.4. | Troksnis | 34 |
3.5. | Risināšanas koku saīsināšanas metodes | 42 |
3.6. | Saīsināšana pēc kļūdas grūtības (Err-Comp) | 42 |
3.7. | Saīsināšana pēc kļūdas minimuma (Min-Err) | 44 |
3.8. | Saīsināšana pēc kritiskas vērtības (Critical) | 44 |
3.9. | Saīsināšana pēc kļūdas samazināšanas (Reduce) | 44 |
3.10. | Saīsināšana pēc pesimistiskas kļūdas (Pessim) | 45 |
3.11. | Kross – pārbaude | 48 |
3.12. | Kross – pārbaude uz pārbaudes kopas | 48 |
3.13. | V – kārtas kross – pārbaude | 48 |
3.14. | Globāla kross – pārbaude | 49 |
3.15. | Risināšanas koka pārveidošana uz likuma kopu | 62 |
4. | Praktiskā daļa | 63 |
4.1. | Eksperimentu plāna izstrādāšana | 63 |
4.2. | Sākumdatu ģenerēšana | 63 |
4.3. | Eksperimentu paveikšana | 65 |
4.4. | Eksperimentu rezultāti | 66 |
4.4.1. | Eksperiments N1 | 66 |
4.4.2. | Eksperiments N2 | 68 |
4.4.3. | Eksperiments N3 | 71 |
4.4.4. | Eksperiments N4 | 75 |
4.4.5. | Eksperiments N5 | 76 |
4.4.6. | Eksperiments N6 | 79 |
4.4.7. | Eksperiments N7 | 86 |
4.4.8. | Eksperiments N8 | 87 |
5. | REZULTĀTU ANALĪZE UN SECINĀJUMI | 94 |
5.1. | Teorētisko rezultātu analīze | 94 |
5.2. | Eksperimentālo rezultātu analīze | 94 |
BIBLIOGRAFISKAIS SARAKSTS | 95 | |
PIELIKUMI | 96 |
Darbā ir nepieciešams atrisināt uzdevumu, kas ir saistīts ar kredītu izsniegšanu. Indukciju sistēmas risināšanai tika izvēlēts C4.5 algoritms. C4.5 algoritms izveido klasifikatora risināšanu koka veidā. Galvenā priekšrocība ir tāda, ka šis algoritms var strādāt ar simboliskiem un skaitliskiem datiem.
C4.5 algoritms ir interesants un efektīvs problēmām, kur dati ir nenoteikti. Risināšanas koku pielietošanas apgabals ir plašs, bet visus uzdevumus var apvienot trijās klasēs: datu aprakstīšana, klasifikācija un regresēja.
Risināšanas koki ļauj glabāt informāciju par datiem kompaktā formā, tā vietā var saglabāt risināšanas koku, kas satur precīzu objektu aprakstu.
Risināšanas koki izcili tiek galā ar klasifikācijas uzdevumiem, pareizi klasificē objekta piederību vienai no zināmām klasēm. Mērķa mainīgais vienmēr ir diskrēts lielums.
Ja mērķa mainīgais ir nepārtraukta vērtība, risināšanas koki ļauj definēt mērķa mainīgā atkarību no neatkarīgiem mainīgajiem.
Darbā tiek apskatīta datu bāze “Kredītu izsniegšana”. Ir nepieciešams izveidot optimālu klasifikatoru, kas ar iespējami mazāku kļūdu skaitu, pareģos klasi. Mūsu gadījumā tas dos atbildi par kredīta izsniegšanas piekrišanu vai atteikumu kādam cilvēkam. pēc tā esošās informācijas vērtībām. Datu bāze satur sevī 400 objektu, kuri piedalīsies apmācības kopā un 290 objekti, kuri testēs iegūto klasifikatoru drošumu.
Objektu informācija ir slepena un, lai tā paliktu konfidenciāla, tiek aizvietota ar simboliem. Pētīšana ir interesanta ar to, ka dati ir reāli un pazīmes vērtības satur sevī kā nezināmus, tā arī neadekvātus datus. Ir skaitliski lieli un mazi nominālie dati.
Pazīmju skaits ir 15 un viens atribūts apraksta klasi. Mērķa mainīgais atribūts var pieņemt divas vērtības [+ - kredītu izsniegšanas piekrišana;- - kredītu izsniegšanas nepiekrišana].
Darba uzdevums satur sevī problēmu pareģot objekta piederību klasei ,pēc tās pazīmju vērtības. Uzdevumu var sadalīt sekojošos etapos:
Atribūtu apraksts. Datiem, kuri ir nepieciešami algoritma darbībai, jābūt atspoguļotiem tabulas veidā. Visai informācijai, no priekšmeta apgabala, par objektiem, jābūt aprakstītiem galīgā pazīmes kopas veidā (tālāk atribūti). Katram atribūtam ir jābūt diskrētai vai skaitliskai vērtībai. Pats atribūts nedrīkst mainīties no piemēra pie piemēra, un atribūtu daudzumam jābūt fiksētam visos piemēros.
Noteiktas klases. Katram piemēram, jābūt asociētam ar konkrēto klasi, tas nozīmē, ka vienam no atribūtiem ir jābūt izvēlētam kā klases iezīmei.
Diskrētas klases. Klasēm jābūt diskrētām, tas nozīmē, ka tām ir jābūt galīgo vērtību skaitam. Katram piemēram viennozīmīgi jāpieder konkrētai klasei. Situācijas, kad piemēri pieder pie klases ar varbūtības novērtējumiem, izslēgtas. Klases daudzumam jābūt ievērojami lielākam par piemēra daudzumu [www. basegroup.ru].
Darbā tiek apskatītās dažādas metodes, situācijas un problēmas, kādas var rasties risināšanas koka izveidošanas laikā. Lai atspoguļotu risināšanas un izveidošanas soļus tiks izmantota neliela apmācības kopa (sk. Tabulā 1), visu metožu pielietošana būs pamatota uz dotajiem datiem.
1. klasifikatora izveidošana
Koka izveidošanas process notiek no augšas uz leju. Vispirms tiek izveidota koka sakne, pēc tam saknes pēcteči utt. Pirmajā solī koks ir tukšs (ir tikai sakne) un sākuma kopa T (asociēta ar sakni). Ir nepieciešams sadalīt sākuma kopu uz apakškopām. To var izdarīt izvēloties vienu no atribūtiem pārbaudei. Tad sadalīšanas rezultātā tiek iegūti n (pēc atribūta vērtības skaita) apakškopas, un, attiecīgi tiek izveidoti n koka pēcteči, katram no tiem uzstādīta attiecīgi sava apakškopa, kas tiek iegūta kopas T sadalīšanas laikā. Pēc tam šī procedūra rekursīvi tiek pielietota visām apakškopām (koka pēctečiem) utt.
2. uzlabotais kritērijs
Kritērijam ir viens trūkums – tas dod priekšroku atribūtam, kuram ir daudz vērtības. Apskatīsim medicīnas diagnostiskai hipotētisko uzdevumu, kur viens no atribūtiem identificē pacienta personību. Tā kā šīs atribūta vērtības ir unikālas, tad piemēru kopas sadalīšana pēc šī atribūta dod piemēru apakškopās, kuras satur tikai vienu piemēru. Tā kā visas šis kopas ir vienpiemēra, tad attiecīgi piemērs pieder vienai klasei, tad:
Tas nozīme, ka kritērijs pieņem maksimālo vērtību, un tieši šo atribūtu izvēlas algoritms. Bet, ja apskatām šo jautājumu no izkonstruēta modeļa efektivitātes puses, tad ir redzama visa šī modeļa bezjēdzība, bet tomēr tādu gadījumu ir nepieciešams atzīmēt.
Problēma tiek risināta ar kaut kādu normalizāciju ievadīšanu. Lai ziņojuma informācijas jēga, kas attiecas piemēram, norādīs ne uz klasi, kuram pieder piemērs, bet uz izeju.…
kredītu izsniegšana, Indukciju sistēmas risināšanai tika izvēlēts C4.5 algoritms, klasifikatora risināšanu koka veidā.
- Apgrieztā mala
- Klasifikācijas koki
-
Nosacītu likumu indukciju sistēma kredītu izsniegšanas uzdevumam
Referāts133 Ekonomika, Datori, elektronika, programmēšana, Bankas, finanses, vērtspapīri
-
Tu vari jebkuru darbu ātri pievienot savu vēlmju sarakstam. Forši!Telpiskās skanējuma sistēmas
Referāts augstskolai42
Novērtēts! -
Latvijas banku sistēmas raksturojums, tās loma ekonomiskajos procesos
Referāts augstskolai8
Novērtēts! -
UNCITRAL - paraugnoteikumi par starptautiskajiem kredītu pārvedumiem
Referāts augstskolai8
Novērtēts! -
Nodokļu sistēmas kā fiskālās politikas elementa analīze Latvijā
Referāts augstskolai20
Novērtēts! -
Latvijas Republikas nodokļu sistēma
Referāts augstskolai30
Novērtēts!