Viena no galvenajām atšķirībām starp statistisko analīzi un datu ieguvi:

By | marts 9, 2022

Divas datu analīzes metodes, kas ir izplatītas gan akadēmiskajā, gan komerciālajā jomā, ir statistiskā analīze un datu ieguve. Lai gan statistikas analīzei ir sena zinātniskā vēsture, datu ieguve ir jaunāka datu analīzes metode, kas radusies datorzinātnēs. Šajā rakstā es vēlos iepazīstināt ar šīm metodēm un ieskicēt to, kas, manuprāt, ir viena no galvenajām atšķirībām starp abām analīzes jomām.

Statistiskā analīze parasti ietver analītiķi, kurš formulē hipotēzi un pēc tam pārbauda šīs hipotēzes pamatotību, veicot statistikas testus datiem, kas varētu būt savākti šim nolūkam. Piemēram, ja analītiķis pētīja saistību starp ienākumu līmeni un spēju saņemt aizdevumu, analītiķis var izvirzīt hipotēzi, ka pastāv korelācija starp ienākumu līmeni un kredīta summu, uz kuru kāds varētu pretendēt.

Pēc tam analītiķis varētu pārbaudīt šo hipotēzi, izmantojot datu kopu, kurā ir vairāki cilvēki, kā arī viņu ienākumu līmenis un viņiem pieejamais kredīts. Var veikt testu, kas, piemēram, norāda, ka var būt liela pārliecība, ka starp ienākumiem un pieejamo kredītu patiešām pastāv korelācija. Galvenais šeit ir tas, ka analītiķis ir formulējis hipotēzi un pēc tam izmantojis statistisko testu kopā ar datu kopu, lai sniegtu pierādījumus, kas apstiprina vai pret šo hipotēzi.

Datu ieguve ir vēl viena datu analīzes joma, kas nesen radusies datorzinātnēs un kurai ir vairākas atšķirības no tradicionālās statistikas analīzes. Pirmkārt, daudzas datu ieguves metodes ir paredzētas izmantošanai ļoti lielām datu kopām, savukārt statistiskās analīzes metodes bieži ir paredzētas, lai iegūtu pierādījumus, kas apstiprina vai pretrunā hipotēzei no ierobežotāka datu kopuma.

Tomēr, iespējams, būtiskā atšķirība šeit ir tāda, ka datu ieguves metodes netiek izmantotas tik daudz, lai izveidotu pārliecību par hipotēzi, bet gan, lai iegūtu nezināmas attiecības, datu kopā var būt. To, iespējams, vislabāk ilustrē piemērs. Nevis iepriekš minētajā gadījumā, kad statistiķis var izvirzīt hipotēzi starp ienākumu līmeni un pieteikuma iesniedzēja spēju saņemt aizdevumu, datu ieguvē parasti nav sākotnējās hipotēzes. Datu ieguves analītiķim var būt liela datu kopa par aizdevumiem, kas ir izsniegti cilvēkiem, kā arī šo cilvēku demogrāfiskā informācija, piemēram, viņu ienākumu līmenis, vecums, visi esošie parādi un vai viņi kādreiz ir iepriekš nemaksājuši aizdevumu.

Pēc tam datu ieguves tehnika var meklēt šajā lielajā datu kopā un iegūt iepriekš nezināmas attiecības starp ienākumu līmeni, cilvēku esošajiem parādiem un spēju saņemt aizdevumu.

Lai gan starp statistisko analīzi un datu ieguvi ir diezgan daudz atšķirību, es uzskatu, ka šī atšķirība ir problēmas pamatā. Liela daļa statistiskās analīzes ir saistīta ar datu analīzi, lai izveidotu pārliecību par vai pret izvirzīto hipotēzi, savukārt datu ieguve bieži vien ir vairāk par algoritma piemērošanu datu kopai, lai iegūtu iepriekš neparedzētas attiecības.

Atbildēt

Jūsu e-pasta adrese netiks publicēta.