-
Datizrace un zināšanu atklāšana
Referāts74 Datori, elektronika, programmēšana, Transports, sakari
Nr. | Sadaļas nosaukums | Lpp. |
1. | DATU KLASTERĒŠANA | 5 |
1.1. | Metožu apraksts | 5 |
1.1.1. | K-vidējo klasterēšanas algoritms | 5 |
1.1.2. | Hierarhiskā klasterēšana | 6 |
1.1.3. | Izplūdušo c-vidējo klasterēšanas algoritms | 7 |
1.2. | Izmantoto datu apraksts un to sagatavošana analīzei | 8 |
1.3. | Eksperimenti un rezultātu apkopojums | 10 |
1.3.1. | RStudio k-vidējo algoritma realizācija | 10 |
1.3.2. | Orange k-vidējo algoritma realizācija | 13 |
1.3.3. | RStudio hierarhiskās klasterēšanas algoritma realizācija | 16 |
1.3.4. | Orange hierarhiskās klasterēšanas realizācija | 19 |
1.3.5. | RStudio izplūdušo C-vidējo klasterēšanas algoritma realizācija | 20 |
1.3.6. | Algoritmu rezultātu salīdzinājums | 22 |
2. | DATU KLASIFIKĀCIJA UN KLASIFIKĀTORU ANSAMBĻ | 23 |
2.1. | Metožu apraksts | 23 |
2.1.1. | K-tuvāko kaimiņu klasifikācijas metode | 23 |
2.1.2. | Baijesa Naivais klasifikators | 24 |
2.1.3. | Klasifikācijas koki | 25 |
2.1.4. | Klasifikatoru ansambļi | 25 |
2.1.5. | Mākslīgie neironu tīkli | 26 |
2.2. | Izmantoto datu apraksts un to sagatavošana analīzei | 28 |
2.3. | Eksperimenti un rezultātu apkopojums | 30 |
2.3.1. | RStudio K-tuvāko kaimiņu klasifikācijas algoritma realizācija | 31 |
2.3.2. | Orange K-tuvāko kaimiņu algoritma realizācija | 35 |
2.3.3. | RStudio Baijesa naivā klasifikatora realizācija | 37 |
2.3.4. | Orange Baijesa naivā klasifikatora realizācija | 39 |
2.3.5. | RStudio klasifikācijas koku realizācija | 41 |
2.3.6. | Orange klasifikācijas koka realizācija | 44 |
2.3.7. | Algoritmu rezultātu salīdzinājums | 46 |
2.3.8. | Eksperimenti ar klasifikatoru ansambļiem | 46 |
2.3.9. | Mākslīgo neironu tīklu realizācija | 49 |
3. | LAIKA RINDU PROGNOZĒŠANA | 53 |
3.1. | Metožu apraksts | 53 |
3.1.1. | ARIMA modelis | 53 |
3.2. | Izmantoto datu apraksts un to sagatavošana analīzei | 53 |
3.3. | Eksperimenti un rezultātu apkopojums | 56 |
3.3.1. | ARIMA modelis | 56 |
4. | DATORREDZES TEHNOLOĢIJAS | 60 |
4.1. | Metožu apraksts | 60 |
4.1.1. | Keras | 60 |
4.1.2. | TensorFlow | 61 |
4.2. | Izmantoto datu apraksts un to sagatavošana analīzei | 61 |
4.3. | Eksperimenti un rezultātu apkopojums | 62 |
4.3.1. | Eksperimenti ar pirmo konvolūciju tīklu uz MNIST datu kopas | 62 |
4.3.2. | Eksperimenti ar otro konvolūciju tīklu uz MNIST datu kopas | 65 |
4.3.3. | Eksperimenti ar trešo konvolūciju tīklu uz MNIST datu kopas | 69 |
4.3.4. | Rezultātu salīdzinājums un secinājumi | 72 |
REZULTĀTU APKOPOJUMS UN SECINĀJUMI | 73 | |
IZMANTOTĀ LITERATŪRA | 75 |
REZULTĀTU APKOPOJUMS UN SECINĀJUMI
Šis studiju darbs sevī ietvēra četru uzdevumu risinājumus – 1) datu klasterēšana, 2) datu klasifikācija, klasifikācijas koki un klasifikatoru ansambļi, 3) laika rindu prognozēšana un 4) datorredzes tehnoloģijas.
Datu klasterēšanas uzdevumā tika izmantoti trīs algoritmi – K-vidējo klasterēšanas, Hierarhiskā klasterēšanas un Izplūdušo C-vidējo klasterēšanas algoritmi. Pēc eksperimentu veikšanas ar katru no nosauktajiem algoritmiem mēs ieguvām, ka labākais algoritms šai atlasītajai datu kopai būs K-vidējo algoritms, kuram bija vislielākā precizitāte un ko arī parādīja vismazākā summētā kvadrātiskā kļūda, un tieši šim algoritmam mēs izvēlējāmies labāko klasteru skaitu.
Datu klasifikācijas uzdevumā mēs implementējām piecus algoritmu – K-tuvāko kaimiņu, Baijesa Naivo klasifikatoru, klasifikācijas koku (C5.0 algoritmu), klasifikatoru ansambļus (Ada un RandomForest), kā arī pielietojām mākslīgos neironu tīklus (neuralnet). Kopumā, neironu tīklu iegūtie rezultāti precizitātes ziņā nebija tie labākie (Baijesa un klasifikatoru ansambļiem bija lielāka precizitāte), un K-tuvāko kaimiņu algortims šā vai tā palika labākais klasifikācijas algoritms pēc maniem veiktajiem eksperimentu rezultātiem.
Laika rindu prognozēšanai es izmantoju ARIMA (Autoregressive Integrated Moving Average) modeli, jo par to es uzzināju meklējot informāciju par šo studiju darbu, un izrādījās, ka šis modelis ir efektīvs, lai prognozētu laika rindas. Šis modelis apvienojumā ar forecast() modeli, deva nepieciešamos rezultātus pietiekami detalizētos grafikos, kas prognozēja vērtības dažāda lieluma periodiem. Bija iespējams arī realizēt šo uzdevumu ar neironu tīkliem, bet es to neizvēlējos darīt, jo otrajā uzdevumā tas jau tika izmantots un man bija vēlme veikt eksperimentus ar cita algoritma pielietošanu.
…
Kursa darbs RTU Klasterēšanas uzdevums ir sadalīt populāciju vai datu punktus vairākās grupās tā, lai datu punkti tajās pašās grupās būtu līdzīgāki citiem tās pašas grupas datu punktiem nekā citās klasteru grupās. Vienkāršiem vārdiem sakot, mērķis ir nošķirt grupas ar līdzīgām iezīmēm un piešķirt tās kopās. Hierarhiskā klasterēšana, ko sauc arī par hierarhisko klasteru analīzi, ir algoritms, kas sagrupē līdzīgus objektus grupās, ko sauc par klasteriem. Galapunkts ir klasteru kopa, kur katrs klasteris ir atšķirīgs no otra klastera un objekti katrā klasterī ir lielā mērā līdzīgi. Klasifikācija ir datu analīzes uzdevums, t.i., tāda modeļa atrašanas process, kas apraksta un atšķir datu klases un koncepcijas. Klasifikācija ir problēma, lai noteiktu, kurai no kategorijām (apakšgrupām) pieder jauns novērojums, pamatojoties uz apmācību datiem, kas satur novērojumus un kuru kategorijas ir zināmas. Baijesa Naivais klasifikators ir perspektīvs mašīnmācību modelis, ko izmanto klasificēšanas uzdevumiem. Galvenokārt, šis algoritms ir balstīts uz Baijesa teorēmu Mākslīgie neironu tīkli (MNT) balsta savu datu asimilāciju uz to, kā cilvēka smadzenes apstrādā informāciju. Smandzenēs ir miljardiem šūnu, ko sauc par neironiem, kas apstrādā informāciju elektrisko signālu veidā.
-
Datizrace un zināšanu atklāšana
Referāts74 Datori, elektronika, programmēšana, Transports, sakari
- Interaktīvais Visual C un C++ programmēšanas valodu apmācības līdzeklis
-
SIA "Lido" informācijas sistēmas un to plānošana
Referāts11 Mārketings, reklāma, Datori, elektronika, programmēšana
-
Tu vari jebkuru darbu ātri pievienot savu vēlmju sarakstam. Forši!Interaktīvais Visual C un C++ programmēšanas valodu apmācības līdzeklis
Referāts augstskolai53
-
SIA "Lido" informācijas sistēmas un to plānošana
Referāts augstskolai11
-
Valsts SIA "Autotransporta direkcija" vadīšanas sistēmas analīze un novērtējums
Referāts augstskolai30
-
Informācijas un komunikāciju tehnoloģijas pasaules un Latvijas izglītības sistēmā
Referāts augstskolai9
Novērtēts! -
E-komercija un tās attīstība Latvijā
Referāts augstskolai39
Novērtēts!