Diplomdarbs
Tehnoloģijas
Datori, elektronika, programmēšana
C4.5, C5.0 un SVM klasifikācijas algoritmu izpēte un salī...-
C4.5, C5.0 un SVM klasifikācijas algoritmu izpēte un salīdzināšana datorlingvistikas vajadzībām
Nr. | Sadaļas nosaukums | Lpp. |
APZĪMĒJUMU SARAKSTS | 7 | |
IEVADS | 9 | |
1. | MALTPARSER | 10 |
1.1. | Arc-eager Shift-reduce algoritms | 10 |
1.1.1. | Arc-eager Shift-reduce algoritma realizācija | 10 |
1.2. | SVM algoritms | 13 |
2. | PROBLĒMAS APRAKSTS | 14 |
3. | PĒTĪJUMA METODOLOĢIJA | 15 |
3.1. | Gadījumu izpēte – mašīnmācīšanās algoritmu salīdzinājums | 15 |
3.2. | Eksperimenti – sintaktiskā analizatora izstrāde un lietojums | 15 |
4. | MAŠĪNMĀCĪŠANĀS ALGORITMU SALĪDZINĀJUMS | 17 |
4.1. | SVM | 17 |
4.2. | C4.5 | 19 |
4.3. | C5.0 | 20 |
4.4. | Secinājumi | 22 |
5. | SINTAKTISKĀ ANALIZATORA IZSTRĀDE | 23 |
5.1. | Datu ģeneratora izstrāde | 23 |
5.1.1. | CoNLL formāta ieejas dati | 23 |
5.1.2. | Algoritms | 25 |
5.1.3. | Pseidokods | 25 |
5.1.4. | Piemērs | 26 |
5.2. | Sintaktiskā analizatora izstrāde | 27 |
5.2.1. | Algoritms | 27 |
5.2.2. | Pseidokods | 28 |
5.2.3. | Piemērs | 29 |
6. | EKSPERIMENTU REZULTĀTI | 30 |
6.1. | Veicamā gājiena klasificēšana | 30 |
6.1.1. | Testa dati | 30 |
6.1.2. | C5 sintaktiskais analizators | 31 |
6.1.3. | C5.0 ar lēmumu koku | 31 |
6.1.4. | C5.0 ar lēmumu likumiem | 32 |
6.1.5. | SVM | 32 |
6.1.6. | Salīdzinājums | 33 |
6.2. | Teikuma sintaktiskās struktūras klasificēšana | 33 |
6.2.1. | Testa dati | 33 |
6.2.2. | C5 sintaktiskais analizators | 34 |
6.2.3. | C5.0 ar lēmumu koku | 34 |
6.2.4. | SVM | 34 |
6.2.5. | Salīdzinājums | 34 |
6.3. | Iespējamie uzlabojumi | 35 |
SECINĀJUMI | 36 | |
IZMANTOTĀ LITERATŪRA | 37 | |
PIELIKUMI | 38 | |
1.PIELIKUMS. | Arc-eager Shift-reduce pirmkods | 39 |
2.PIELIKUMS. | C 4.5 un C 5.0 testa piemēri | 42 |
3.PIELIKUMS. | Datu ģeneratora pirmkods | 43 |
4.PIELIKUMS. | Sintaktiskā analizatora pirmkods | 45 |
5.PIELIKUMS. | Programmatūras izpildāmais modulis | 49 |
SECINĀJUMI
Maģistra darba problēmas aprakstā izvirzītie mērķi izpētīt un salīdzināt mašīnmācīšanās algoritmus, un izstrādāt sintaktiskās analīzes rīku tika īstenoti. Tika izpētīta par algoritmiem pieejamā literatūra, izmēģināta algoritmu darbība brīvi pieejamā programmatūrā, un tie tika salīdzināti pēc vairākiem kritērijiem. Tika veiksmīgi izstrādāts C5 sintaktiskais analizators, kurā izmantojama gan autora C4.5 / C5.0 implementācija, gan oriģinālās C5.0 programmatūras kā arī SVM klasifikatora datus. Izvēlētie algoritmi tika salīdzināti ar C5 sintaktiskajā analizatorā ģenerētajiem ievaddatiem sintaktiskās analīzes nākamo gājienu paredzēšanā un arī atkarību loku veidošanā. Eksperimentu rezultātos tika atklāts, ka tieši datorlingvistikas vajadzībām tomēr C5.0 izvirzījās vadībā, par pāris procentu punktiem pārspējot konkurentus, lai gan visi trīs algoritmi darbojās ar samērā līdzīgu precizitāti.
Darba sākumā tika aprakstīts valodas apstrādes rīks Maltparser, tajā lietotie algoritmi gan tekstu sintaktiskās analīzes, gan mašīnmācīšanās. Sintaktisko atkarību analīzes algoritms Arc-eager Shift-reduce tika implementēts nelielā PHP programmā, dziļākas autora izpratnes radīšanai. Tālāk tika nodefinēta arī konkrēta maģistra darbā risināmā problēma un pieeja pētījuma veikšanai.
Darba otrajā daļā tika apskatīti un salīdzināti dažādi mašīnmācīšanās algoritmi – gan rīkā Maltparser lietotais SVM, gan algoritms C5.0, ar kuru to plānots aizvietot, kā arī viens vecāks mašīnmācīšanās algoritms – C4.5. Tika veikta neliela literatūras izpēte par konkrēto algoritmu teorētisko pamatojumu, kam sekoja arī algoritmu praktiska izmēģināšana uz reāliem testa piemēriem, lai varētu objektīvi salīdzināt to darbību.
Trešajā daļā tika izstrādāts C5 sintaktiskais analizators, kas sevī apvienoja sintaktisko atkarību analīzes algoritmu ar mašīnmācīšanās algoritmiem, lai varētu izveidot atkarību lokus starp ievadīto teikumu vārdiem / teikumu daļām. Ar šo rīku tika veikti eksperimenti, kuros salīdzināti mašīnmācīšanās algoritmi daļējā (nākamā gājiena paredzēšanas) un pilnā (atkarību loku veidošanā) sintaktiskās analīzes uzdevuma veikšanā.
Šis maģistra darbs pierāda, ka teikumu sintaktiskās analīzes problēmu risināšanā veiksmīgi var tikt izmantots C5.0 mašīnmācīšanās algoritms, kas ne vien spēs sniegt rezultātus ar lielāku precizitāti, bet arī veicinās tā lietotāju izpratni par analīzes gājienu secību. Tas noteikti var kalpot kā uzskates materiāls citiem valodas tehnoloģiju vai līdzīgiem pētījumiem.…
Maģistra darba mērķis ir izpētīt populāro valodas apstrādes rīku Maltparser, tā teikumu sintaktiskajā analizatorā izmantotos algoritmus – sintaktiskās analīzes algoritmu Arc-Eager Shift-Reduce un mašīnmācīšanās algoritmu SVM. Maģistra darbā SVM algoritms tiks salīdzināts ar citiem mašīnmācīšanās algoritmiem – C4.5 un C5.0 – kas sniedz ievērojamas priekšrocības tieši valodas apstrādes vajadzībām. Maģistra darba gaitā izstrādāta arī autora realizācija minētajam sintaktiskās analīzes algoritmam un mašīnapmācības algoritmam. Šī maģistra darba mērķis ir pārbaudīt, vai teikuma sintaktiskajai analīzei SVM klasifikatoru var veiksmīgi aizstāt ar C5.0 klasifikatoru, kas ģenerēs cilvēkam izlasāmus un vieglāk uztveramus klasifikācijas kokus un / vai likumus nekā SVM ģenerētais vektora formāts. Maģistra darbā paredzēts arī kvantitatīvi salīdzināt algoritmu precizitāti un citus izmērāmus raksturlielumus.
- Analogu biroja programmu komplektu izpēte
- C4.5, C5.0 un SVM klasifikācijas algoritmu izpēte un salīdzināšana datorlingvistikas vajadzībām
- Unix, Linux, Windows un Novell OS attīstības vēsture, OS klasifikācija un pielietojumi
-
Tu vari jebkuru darbu ātri pievienot savu vēlmju sarakstam. Forši!DRM uztvērēji
Diplomdarbs augstskolai55
Novērtēts! -
Maršrutēšanas protokolu RIP un OSPF salīdzinājums
Diplomdarbs augstskolai76
Novērtēts! -
PHP drošība datu apmaiņā starp WEB lapas apmeklētāju un serveri
Diplomdarbs augstskolai55
Novērtēts! -
Sociāli devianta uzvedība elektroniskajā vidē
Diplomdarbs augstskolai58
Novērtēts! -
Mūsdienu lineārie barošanas avoti
Diplomdarbs augstskolai63