Referāts
Tehnoloģijas
Datori, elektronika, programmēšana
Induktīvu secināšanas sistēmu analīze-
Induktīvu secināšanas sistēmu analīze
Nr. | Sadaļas nosaukums | Lpp. |
IEVADS | 13 | |
1. | Uzdevuma nostādne | 14 |
1.1. | Uzdevuma saturīgā nostādne | 14 |
1.2. | Uzdevuma formālā nostādne | 15 |
2. | Izmantotās metodes | 16 |
2.1. | Jēdzienu vispārināšana pēc pazīmēm algoritms CORA | 16 |
2.1.1. | CORA klasifikācijas algoritms | 17 |
2.1.2. | Secīgās pārklāšanas metode | 19 |
2.1.3. | Loģiskā bloka uzdevums (CORA) | 20 |
2.1.3.1. | Loģiskās funkcijas meklēšana pa daļām | 21 |
2.1.4. | Konjunkciju atlases kritēriji | 22 |
2.1.4.1. | Atcerēšanās kritērijs (slieksnis) | 23 |
2.1.4.2. | Neatkarības pakāpes kritērijs | 23 |
2.1.4.3. | Vienas klases piemērotības kritērijs | 24 |
2.1.5. | Pazīmju drošums | 25 |
2.1.6. | Kritēriju izvēle | 26 |
2.1.6.1. | Algoritma pilnveidošana | 27 |
2.1.6.2. | Pazīmju atlases kritēriju novērtēšana | 27 |
2.1.7. | Pazīmes neatkarība | 32 |
2.2. | Risināšanas koki C4.5 | 33 |
2.2.1. | Koka izveidošanas algoritms | 33 |
2.2.2. | Jaunu piemēru klasifikācija | 36 |
2.2.3. | Uzlabotājs sadalīšanas kritērijs | 37 |
2.2.4. | Izlaistie dati | 38 |
2.2.5. | Troksnis | 40 |
2.2.6. | Risināšanas koku saīsināšanas metodes | 40 |
2.2.6.1. | Saīsināšana pēc kļūdas grūtības (Err-Comp) | 40 |
2.2.6.2. | Saīsināšana pēc kļūdas minimuma (Min-Err) | 42 |
2.2.6.3. | Saīsināšana pēc kritiskas vērtības (Critical) | 42 |
2.2.6.4. | Saīsināšana pēc kļūdas samazināšanas (Reduce) | 42 |
2.2.6.5. | Saīsināšana pēc pesimistiskas kļūdas (Pessim) | 43 |
2.2.7. | Kross – pārbaude | 44 |
2.2.7.1. | Kross – pārbaude uz pārbaudes kopas | 44 |
2.2.7.2. | V – kārtas kross – pārbaude | 44 |
2.2.7.3. | Globāla kross – pārbaude | 45 |
2.2.8. | Risināšanas koka pārveidošana uz likuma kopu | 46 |
2.3. | AQ amācības algoritma metode | 46 |
2.3.1. | AQ izpildīšanas algoritms | 46 |
2.3.2. | Divdabīgas saites tuvinājums | 47 |
2.3.3. | Trokšņainu piemēru apmācības koncepcija | 48 |
2.3.4. | Vislabākā apraksta multikritērijas atlase | 49 |
2.3.5. | Pilnība, savienojamība un savienojamības pastiprināšana | 51 |
2.3.6. | Likuma kvalitātes definēšana | 53 |
2.3.7. | Likuma kvalitātes kritērija empīriskais salīdzinājums | 54 |
2.3.7.1. | AQ pretrunības pieņemšana | 54 |
2.3.8. | Neparedzētas grūtības | 57 |
2.3.9. | AQ nepilnības pieņemšana | 59 |
2.4. | CN2 induktīva algoritma metode | 60 |
3. | Nopublicēto risināmo metožu apraksts | 65 |
3.1. | Vilsona slimības imunoloģisko radītāju analīze, izmantojot loģiskās – statistiskas metodes | 65 |
3.2. | Smagas IT problēmas Internet problēmu risinājumā | 71 |
3.3. | 2D modeļa simbolisku aprakstu apmācība rentgenogrammas attēlu objekta atpazīšanā | 73 |
4. | Teorētiskā daļa | 83 |
4.1. | CORA klasifikācijas algoritms | 85 |
4.2. | AQ induktīvais algoritms | 91 |
4.3. | Risinājumu koku algoritms C4.5 | 104 |
4.4. | CN2 induktīvais algoritms | 115 |
5. | Praktiska daļa | 132 |
5.1. | Eksperimentu plāna izstrādāšana | 132 |
5.1.1. | Pareģojoša precizitāte | 132 |
5.1.2. | Visparinājums | 133 |
5.1.3. | Apgabala sarežģītums | 133 |
5.1.4. | Laika sarežģītums | 133 |
5.1.5. | Domēna pārklājums | 134 |
5.2. | Sākumdatu ģenerēšana | 134 |
5.3. | Eksperimentu paveikšana | 137 |
5.3.1. | Pareģošanas precizitāte atkarība no apmācības kopas sadalījuma | 137 |
5.3.2. | 10 – kartas kross validācijas pareģošanas precizitāte | 143 |
5.3.3. | Sareždituma, visparinājuma un pārklāšanas kvalitāte | 148 |
5.4. | Praktisko eksperimentu rezultātu analīze | 149 |
6. | Izmantojamas induktīvas sistēmas | 151 |
6.1. | Koncepciju vispārināšanas sistēma Cora | 151 |
6.1.1. | Atribūti | 152 |
6.1.2. | Vērtības | 152 |
6.1.3. | Parametri | 152 |
6.2. | Risinājumu koku induktīva sistēma See5/C5 | 155 |
6.2.1. | Risināšanas koku izveidošana- See5/c5.0 sistēma | 155 |
6.2.2. | See5 datu sagatavošana | 156 |
6.2.3. | Lietotāja interfeiss | 158 |
6.2.4. | Risināšanas koka izveidošana | 159 |
6.2.5. | Risināšanas koka likumu kopā pārveidošana | 161 |
6.2.6. | Risinājuma pastiprināšana | 162 |
6.2.7. | Risinājumu pieņemšana izmantojot likumu kopu | 162 |
6.2.8. | Režģu mīkstināšana | 163 |
6.2.9. | Algoritma noskaņošanas iespējas | 163 |
6.2.10. | Krustoša pārbaude | 164 |
6.2.11. | Lielu datu kopas izlase | 164 |
6.2.12. | Klasifikācijas kļūdu izmaksas uzskaite | 164 |
6.2.13. | Klasifikatoru izmantošana | 165 |
6.2.14. | Detalizēta pārbaude un rezultātu saglabāšana | 166 |
6.3. | Induktīva sistēma iAQ | 167 |
6.3.1. | Inter- un intra – saites likumu specifikācijai | 170 |
6.3.2. | AQ20 programmas palaišana | 171 |
6.3.3. | AQ programmatūra | 172 |
6.3.4. | Likumu kopas reprezentācijas apskats | 181 |
6.3.5. | Faila formāts un paskaidrojumi | 182 |
6.3.6. | Parametru tabula | 183 |
6.3.7. | Kritēriju tabulas | 190 |
6.3.8. | Domēna - tipa mainīgo tabulas | 192 |
6.3.9. | Nosaukumu tabulas | 193 |
6.3.10. | Struktūru tabulas | 194 |
6.3.11. | Notikumu un testēšanas notikumu tabulas | 196 |
6.3.12. | Bērnu tabulas | 197 |
6.3.13. | Varsel tabula | 198 |
6.3.14. | Testēšanas likumu kopa | 199 |
6.3.14.1. | Testēšanas metodes | 199 |
6.4.1. | Sistēmas parametri | 203 |
6.4.2. | Piemēru un atribūtu faili | 204 |
6.4.3. | Atribūti | 205 |
6.4.4. | Vertības | 205 |
6.4.5. | Novērtējums | 206 |
SECINĀJUMI | 208 | |
BIBILIOGRĀFISKAIS SARAKSTS | 210 |
Darbā tika aprakstītas induktīvu secināšanas sistēmu metodoloģijas un to pielietojums reālajā dzīvē. Pamatojoties uz induktīvām sistēmām un izmantojot attiecīgo programmatūru nodrošinājumus, tika paveikti vairāki eksperimenti ar reālajām datu bāzēm un izveidot sistēmu risinājuma analīzi.
Sistēmu analīzei tika izvēlētas fiksētu atribūta vērtību pāris algoritms CORA un naturālo indukciju algoritmi C4.5, AQ20 un CN2. Visas metodes tika detalizēti izskatītas, noteikti notikumu klasifikācijas kritēriji un novērtētas risinājumu likumu kopas, kā arī risinājumu koku kvalitātes kritēriji.
Pamatojoties uz teorētisko daļu, tika izstrādāti eksperimenti, kuri var būt pielietoti četru metožu salīdzināšanai. Eksperimentu veikšanai tika izmantotas četru piemēru klasifikāciju programmatūras, kuru iznākums ir risinājuma koka, sakārtotu un nesakārtotu likumu, kopu veidā. Sistēmu salīdzināšanai un likumu kvalitātes novērtēšanai tika izmantotas divas reālas pasaules datu bāzes Voting un Credit Approval. Datu bāzes ir ļoti interesantas ar saturošiem sevī datiem. Tās satur nepārtrauktus, diskrētus, simboliskus, izlaistus un trokšņainus datus. Pielietojot risinājumu kopas kvalitātes novērtēšanas metriku, tika salīdzinātas sistēmās CORA, C4.5, See5/C5 un CN2 risinājumu koka un risinājumu likumu atpazīšanas kvalitāti. Izmantotā metrika ļauj novērtēt risinājuma kopas precizitāti, vispārinājumu, apgabala sarežģītību un pārklāšanu. Tā ir viegli pielietojama visām četrām sistēmām.
Paveiktie eksperimenti deva sistēmu darbības kvalitātes vispārēju apskatu. Lai varētu objektīvi salīdzināt visas programmatūras, tām tika izvēlēti kopēji uzstādīšanas parametri, līdz ar to nodrošinot sistēmas no lietotāja puses ar vienādām notikumu klasifikācijas iespējām.
Pielikumā A pievienots CD ar maģistra darba tekstu elektroniskajā veidā, CORA, C4.5, AQ20 un CN2 programmatūras instalācijas faili un izmantojamās datu bāzes dati.
RIGA TECHNICAL UNIVERSITY
FACULTY OF COMPUTER SCIENCE AND INFORMATION TECHNOLOGY
Institute of Information TechnologySimboliskas induktīvās sistēmas, kuras inducē koncepcijas aprakstus no piemēriem, ir vērtīgi darbarīki ekspertu sistēmas zināšanu iegūšanas uzdevumos. Kopš laika, kad induktīvās apmācības metodes izveido noteiktus koncepcijas aprakstus, kad tiek doti identiski apmācības piemēri, parādījās jautājums par izveidoto likumu kopas kvalitāti. Šis darbs atspoguļo vairākas likumu kopas salīdzināšanas un analizēšanas tehnoloģijas. Šīs tehnoloģijas mēra precizitāti, vispārināšanu, apgabala sarežģītību un domēnu likumu kopas pārklāšanu. Balstoties uz šo metriku, tiek paveikts četru dažādu induktīvu sistēmu salīdzinājums. Izmantotas ir koncepciju vispārināšanas Bongarda algoritms CORA un izveidota ar E. Tipanu sistēma CORA, izveidota ar Michalski un ekspertu grupu - AQ20 sistēma, Quinlana sistēma C4.5, Clarka un Nibletta sistēma CN2. Salīdzinājumi tiek veikti, izmantojot divas reālas datubāzes, kuras satur datus no politiskas sfēras un bankas kredīta izsniegšanas sfēras, un tiek pamatotas uz risinājumu koku un likumu kopas izveidošanu, izmantojot šos algoritmus.
Simboliskais induktīvās apmācības algoritms apmāca klases aprakstus no piemēriem. Visai informācijai par piemēriem jābūt izteiktai terminos ar fiksēto īpašību daudzumu vai atribūtu, kur katra atribūta vērtības domēni ir arī atsevišķi simboli, diskrēti vai nepārtraukti skaitļi, vai ti var būt arī daļēji sakārtoti. Katrs piemērs tiek aprakstīts ar atribūtu vērtības vektoru un pieder pie vienas no kopas iekļautām klasēm. Kopš tā laika, kad katra piemēra klase ir noteikta apmācības algoritmam ar lietotāju, šī apmācības forma tiek saukta - apmācība ar skolotāju. Indukciju uzdevums ir izveidot likumu kopu, kura var noteikt piemēra klasi, izmantojot atribūtu vērtības. Šo metodoloģiju izmanto trijām no četrām apskatītajām šajā darbā sistēmām: uzlabota C4.5 programma See5, AQ20 un CN2. Un viena, balstīta uz Bongard .M CORA sistēma, kur informācijai par piemēriem jābūt izsākamai terminos ar fiksēto atribūtu daudzumu, kur katra atribūta vērtība ir fiksētais atribūtu vērtības pāris (bināra rinda), līdz ar to daudz reālas pasaules datu bāzes piemēri nevar būt reprezentēti ar fiksēto atribūtu vērtību pāri, nezaudējot daudz vērtīgas informācijas.
Izmantotās tehnoloģijas, kuras tiek salīdzinātas šajā darbā, tika izvēlētas tāpēc, ka tās ir ļoti populāras mašīnu apmācības literatūrā. Tās izveido dažādu tipu likumu kopas, nesecīgas likumu kopas, secīgas likumu kopas, zināmas kā risinājumu saraksts, un risinājumu kokus attiecīgi. Likumu kopas kvalitātes mērs, izmantojamais šajā darbā, ļauj veikt šo dažādo tipu likumu kopas salīdzinājumu.
Šajā darbā tika apskatīti un analizēti induktīvās secināšanas sistēmas. Tika izvēlētas četras metodes, kur viena balstās uz fiksēto atribūtu vērtību pāri, piedāvāta M. Bongardam metode CORA un trīs naturālās indukcijas sistēmas C4.5, AQ20 un CN2.
Tagad zinātniskā pasaule ir pārpildīta ar notikumu klasifikācijas metodēm un atbilstošām sistēmām, tādēļ izveidojās situācija, kad parādījas nepieciešamība salīdzināt un izvēlēties sistēmu ar vislabāko kvalitāti. Katra sistēma var būt ļoti laba vienu uzdevumu risināšanai, bet pavisam nepiemērota citam uzdevumam. Rezultātā mēs nonācām pie secinājuma, ka katram uzdevumam sistēmu ir nepieciešams pielāgot.
Šī darba uzdevums ir paveikt četru induktīvu sistēmu salīdzinājumu un novērtēt risinājuma kvalitāti. Šim nolūkam ir nepieciešams iztrādāt eksperimentus, kuri salīdzinātu visas sistēmas. Atrast parametrus, kuri varētu būt uzstādīti uz visām sistēmām, līdz ar to pielīdzinot sistēmu klasifikācijas spējas, kā arī paveikt, izvestus ar sistēmām, likumu kopas analīzi un noteikt tās kvalitāti. Kvalitātes noteikšanai tika izvēlēta metrika, kura varētu būt pielietota visām četrām sistēmām. Mertikā iekļautie mēri var novertēt likumu kopas precizitāti, vispārinājumu, apgabala sarežģītību un pārklāšanu.
Darbā izmantotas attiecīgi apskatītām metodēm programmatūras nodrošinājums. Modificēta ar E. Tipanu sistēma CORA, izveidota ar Michalski un ekspertu grupu - AQ20 sistēma, Quinlana sistēma C4.5, Clarka un Nibletta sistēma CN2.
Šī maģistra darba izvēlētā tēma par induktīvu secināšanas sistēmu analīzi uzdevuma formālā nostādne sastāv:
1.Apskatīt CORA, C4.5, AQ20 un CN2 algoritmu arhitektūru;
2.Apskatīt šo metožu pielietojumu reālajā dzīve, reālajām problēmām.
3.Izstrādāt risinājuma kvalitātes novērtēšanas kritērijus, kuri varētu būt pielietoti visām četrām metodēm.
4.Apskatīt CORA, See5/C5, AQ20 un CN2 programmatūras nodrošinājumus, ar kuru palīdzību varētu būt realizētas metodes lielām datu bāzēm.
5.Atrast divas datu bāzes, kurām būs dažāda datu sarežģījuma pakāpe. Datu bāze Voting, kura satur tikai simboliskus datus ar fiksēto atribūtu vērtību pāri. Var būt viegli pārveidota binārajā rindu kopā. Otrā Credit Approval ir sarežģīta ar nepārtrauktu, diskrētu, simbolisku, trokšņainu un izlaistu datu saturu.
6.Pielāgot sistēmas vienam klasifikācijas līmenim no lietotāja puses nozīmē - uzstādīt uz visām sistēmām kopējus parametrus.
7.Izstrādāt eksperimentu plānu, pie kura pastāvēs iespēja salīdzināt visas četras sistēmas.
8.Novērtēt sistēmu izveduma kvalitāti, pielietojot vienādu metriku visām sistēmām.
9.Izveidot sistēmu analīzi un secinājumus.…
Sistēmu analīzei tika izvēlētas fiksētu atribūta vērtību pāris algoritms CORA un naturālo indukciju algoritmi C4.5, AQ20 un CN2
- Dators māksliniekam
- Induktīvu secināšanas sistēmu analīze
- Multimedia un dators
-
Tu vari jebkuru darbu ātri pievienot savu vēlmju sarakstam. Forši!Sistēmu modelēšanas līdzekļi
Referāts augstskolai9
-
Informācijas plūsmu efektivitātes analīze uzņēmumos un organizācijās
Referāts augstskolai14
-
Starptautiskās standartizācijas organizācijas mājas lapas www.iso.org analīze
Referāts augstskolai7
-
Atsevišķu Latvijas uzņēmumu interneta mājas lapu analīze no starptautiskā mārketinga viedokļa
Referāts augstskolai8
-
Informācijas sistēmu nodrošinājums manā darba vietā
Referāts augstskolai9