Darba būtība
Darbs sastāv no divām daļām, pirmajā ir nepieciešams izveidot naiva Baijesa klasifikatoru un klasificēt jaunus datus, otrajā - klasificēt datus ar „K tuvāko kaimiņu” metodi. Katrai pieejai jāizmanto atsevišķas datu kopas, jo pirmā strādā tikai ar kategoriskiem datiem (atribūtiem, kuru nozīmes ir kategorijas), bet otra tikai ar skaitliskiem.
Prasības
Var izvēlieties vai sintētisku datu kopu (t.i. izveidot pašam, vai ģenerēt ar programmas palīdzību), vai reālu. Otrā gadījumā ir iespējas novērtēt klasifikācijas kļūdu (protams, ja visiem datiem ir zināmas klases). Lai darbs tiktu pieņemts jāievēro sekojošas prasības pret datu kopām:
Naivs Baijes:
Apmācības kopas lielums – sakot no 25 ierakstiem;
Jaunu ierakstu (kuru nepieciešams klasificēt) skaits – sakot no 7;
Atribūtu skaits – nemazāk par 4;
Atribūtu nozīmju skaits – var būt no 2 līdz 5;
Klašu skaits – 2.
Jauniem ierakstiem jābūt nevienādiem ar apmācības kopas ierakstiem!
K tuvāki kaimiņi:
Apmācības kopas lielums – sakot no 25 ierakstiem;
Jaunu ierakstu (kuru nepieciešams klasificēt) skaits – sakot no 7;
Atribūtu skaits – nemazāk par 3;
Nozīmes nepieciešams normalizēt (pamatot normalizācijas pieejas izvēli);
Klašu skaits – 2 vai 3;
Jauniem ierakstiem jābūt nevienādiem ar apmācības kopas ierakstiem!…