Referāts
Tehnoloģijas
Datori, elektronika, programmēšana
Datu attīrīšana: problēmas un aktuālās pieejas-
Datu attīrīšana: problēmas un aktuālās pieejas
Nr. | Sadaļas nosaukums | Lpp. |
IEVADS | 5 | |
1. | DATU KVALITĀTES PROBLĒMAS | 6 |
1.1. | Viena avota ietvaros | 6 |
1.1.1. | Kļūdas šūnas līmenī | 6 |
1.1.2. | Integritātes ierobežojumu trūkums | 9 |
1.2. | Daudzi datu avoti | 10 |
1.2.1. | Heterogenitātes konflikts | 10 |
1.2.2. | Aprakstīšanas konflikts | 10 |
1.2.3. | Semantiskais konflikts | 11 |
1.2.4. | Strukturālais konflikts | 12 |
1.2.5. | Dublikāti | 13 |
2. | DATU ATTĪRĪŠANAS PROCESI | 14 |
2.1. | Datu analīze | 14 |
2.2. | Definē transformācijas un kartēšanas nosacījumus | 15 |
2.3. | Verifikācija un transformācija | 15 |
3. | DATU ATTĪRĪŠANAS RĪKI | 16 |
3.1. | WinPure Clean & Match 2010 | 16 |
3.2. | Data match 2011 | 17 |
4. | APSKATĪTO RĪKU PIELIETOJUMS | 18 |
4.1. | Darbs ar Data Match 2011 | 18 |
4.2. | Darbs ar WinPure Clean & Match 2010 | 22 |
5. | RĪKU SALĪDZINĀJUMS | 25 |
IZMANTOTĀ LITERATŪRA | 26 |
5. RĪKU SALĪDZINĀJUMS
Abi rīki ir lietoti kā izmēģinājums versijas, kuras ir derīgas apmēram mēnesim. Rīki nav stingri specializēti tikai vienā jomā, izmantojot tos, var risināt vairākas problēmas. Abām izmēģinājuma versijām nebija pieejamas visas funkcijas.
Katrā rīkā var augšupielādēt dažāda formāta datu avotus, taču Data Match 2011 ir piedāvātas lielākas iespējas nekā otram rīkam. Kā arī WinPure Clean & Match dod iespēju strādāt tikai ar divām tabulām vienlaicīgi un katrā no tām maksimālais ierakstu skaits, kurš var būt ielādēts ir 20 ieraksti.
Datu analīzi, statistikas grafiku veidošanu veic abi rīki.
Nevajadzīgo simbolu dzēšana Data Match 2011 rīkā ir lielākā mērā automatizēta, jo nepieciešams tikai norādīt funkciju noteiktai kolonai, atšķirībā no WinPure Clean & Match, kur katrai kolonai atsevišķi ir jāatver dialoglodziņš un jāizvēlas veicamās darbības, kā arī nav iespējams definēt pašam kādus simbolus dzēst un kādus atstāt.
Teksta labošanas posmā Data Match 2011 piedāvā augšupielādēt failu ar nepieciešamām izmaiņām vai vienkārši definēt kādas izmaiņas ir veicamas noteiktai vērtībai, bet WinPure Clean & Match rīkam ir jākonvertē jauna vērtība katram ierakstam.
Tikai WinPure Clean & Match rīks piedāvā sašķelt vai sapludināt kolonu vērtības, kas, veicot praktisko daļu, noderēja, lai vēlāk varētu sekmīgi veikt kartēšanu.
Dublikātu atrašanas process saprotamāks un vieglāk realizējams manuāli WinPure Clean & Match rīkam, kur ir ievērota strikta soļu secība. Piemēram, kamēr nebūs veikta kartēšana, atbilstoši izvēlētajām tabulām un tās laukiem, nebūs iespējas sākt otro soli. Data Match 2011 dublikātu atrašana notiek vieglāk, jo process ir automatizēts – kartēšana, formulu izveide un dzēšana pēc kategorijām.
Kaut gan rīki veic gandrīz vienas un tās pašas funkcijas, taču process ir atšķirīgs. Ar katru no rīkiem tika uzdevumi, kurus viens veica labāk nekā otrs. Tāpēc pilnīgi apstiprināt ieteikums, kurš bija sastopams vairākos avotos – kvalitatīvākus datus var iegūt, ja lietot vairākus rīkus pat tad, ja tie ir specializēti vienai kļūdu grupai.…
Kursa darba „Datu attīrīšana: problēmas un aktuālās pieejas” mērķis ir izpētīt literatūras avotos sniegto informāciju par datu attīrīšanas sastopamākām problēmām gan vienas, gan arī vairāku avotu gadījumos, metodēm to risināšanai un rīku atbalstu kvalitātes uzlabošanai. Lai secinātu kādā veidā praktiski tiek risinātas zemas datu kvalitātes problēmas un konflikti, tiek analizēti pieejamie rīki - WinPure Clean & Match 2010 un Data Match 2011, to darbošanās principi un izmantojamās pieejas. Šāda darba tematika tika izvēlēta, jo augsta datu kvalitāte tiek pieprasīta jebkurā organizācijā un tā ir par pamatu veiksmīgu stratēģisku plānu izvirzīšanai, balstoties uz iepriekšējiem rādītājiem.
- Datu attīrīšana: problēmas un aktuālās pieejas
- Datu struktūras: vienkāršsaistīts saraksts ar beigu rādītāju
- XML - datu apmaiņas standarts internetā
-
Tu vari jebkuru darbu ātri pievienot savu vēlmju sarakstam. Forši!Oracle analītisko funkciju un datu tipu izmantošana temporālās datu bāzes veidošanai
Referāts augstskolai45
-
Datu attēlošana un prognožu veikšana, izmantojot MS Excel
Referāts augstskolai42
-
Datu prognozēšana MS Excel un MathCad programmās
Referāts augstskolai19
-
MS Excel datu bāzes jeb datu saraksti
Referāts augstskolai22
-
Lielās datu bāzes "Relāciju datu bāzes informācijas objekti"
Referāts augstskolai34