Klasifikimi në Minierën e të Dhënave

Klasifikimi është një teknikë për nxjerrjen e të dhënave që cakton kategoritë në një koleksion të të dhënave për të ndihmuar në parashikime dhe analiza më të sakta. I quajtur edhe nganjëherë i quajtur Pema Vendimi , klasifikimi është një nga disa metoda që synojnë të bëjnë analizën e grupeve të të dhënave shumë të mëdha efektive.

Pse Klasifikimi?

Databaza shumë të mëdha po bëhen normë në botën e sotme të "të dhënave të mëdha". Imagjinoni një bazë të dhënash me terabytesa të shumta të të dhënave - një terabyte është një bilionë bytesh të të dhënave.

Vetëm Facebook grumbullon 600 terabyt të të dhënave të reja çdo ditë të vetme (që nga 2014, hera e fundit që raportoi këto syze). Sfida kryesore e të dhënave të mëdha është se si të kuptosh atë.

Dhe vëllimi absolut nuk është problemi i vetëm: të dhënat e mëdha gjithashtu priren të jenë të ndryshme, të pastrukturuara dhe të ndryshojnë shpejt. Merrni parasysh të dhënat audio dhe video, postimet e mediave sociale, të dhënat 3D ose të dhënat gjeohapësinore. Ky lloj i të dhënave nuk kategorizohet ose organizohet lehtë.

Për të përmbushur këtë sfidë, është zhvilluar një varg metodash automatike për nxjerrjen e informacionit të dobishëm, mes tyre klasifikimi .

Si funksionon Klasifikimi

Në rrezikun e lëvizjes shumë larg në teknologjinë e flasin, le të diskutojmë se si funksionon klasifikimi. Qëllimi është të krijojë një grup rregullash klasifikimi që do t'i përgjigjen një pyetjeje, do të marrin një vendim ose do të parashikojnë sjellje. Për të filluar, zhvillohet një sërë të dhënash të trajnimit që përmban një grup cilësish të caktuar si dhe rezultatin e mundshëm.

Puna e algoritmit të klasifikimit është të zbulojë se si ai grup i atributeve arrin përfundimin e tij.

Skenari : Ndoshta një kompani kartë krediti po përpiqet të përcaktojë se cilat perspektiva duhet të marrin një ofertë për kartë krediti.

Kjo mund të jetë grupi i të dhënave të trajnimit:

Të dhënat e trajnimit
emër moshë gjini Të ardhurat vjetore Oferta e Kreditit
John Doe 25 M $ 39.500 jo
Jane Doe 56 F 125.000 $ po

Kolonat "parashikues" Mosha , Gjinia dhe Të Ardhurat vjetore përcaktojnë vlerën e Ofertës së Kartës së Kreditit "atribut parashikues". Në një set trajnimi, atributi i parashikuesit është i njohur. Algoritmi i klasifikimit pastaj përpiqet të përcaktojë se si është arritur vlera e atributit të parashikuesit: çfarë marrëdhëniesh ekzistojnë midis parashikuesve dhe vendimit? Ai do të zhvillojë një sërë rregullash parashikimi, zakonisht një deklaratë IF / THEN, për shembull:

IF (Mosha> 18 OSE Mosha <75) DHE Të Ardhurat Vjetore> 40,000 THEN Oferta e Kreditit = po

Natyrisht, ky është një shembull i thjeshtë dhe algoritmi do të ketë nevojë për një mostër më të madhe të të dhënave sesa dy të dhënat e paraqitura këtu. Më tej, rregullat e parashikimit mund të jenë shumë më komplekse, duke përfshirë nën-rregullat për të kapur detajet e atributeve.

Tjetra, algoritmi i është dhënë një "grup parashikimi" i të dhënave për të analizuar, por ky grup i mungon atributi i parashikimit (ose vendimi):

Të dhënat parashikuese
emër moshë gjini Të ardhurat vjetore Oferta e Kreditit
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Këto të dhëna parashikuese ndihmojnë në vlerësimin e saktësisë së rregullave të parashikimit dhe rregullat pastaj ndryshohen derisa zhvilluesi i konsideron parashikimet efektive dhe të dobishme.

Shembuj të Klasifikimit Dita-Ditë

Klasifikimi dhe teknikat e tjera të nxjerrjes së të dhënave janë pas shumë prej përvojës sonë të përditshme si konsumatorë.

Parashikimet e motit mund të përdorin klasifikimin për të raportuar nëse dita do të jetë me shi, me diell ose me re. Profesioni mjekësor mund të analizojë kushtet shëndetësore për të parashikuar rezultatet mjekësore. Një lloj metode klasifikimi, Naive Bayesian, përdor probabilitetin e kushtëzuar për të kategorizuar email spam. Nga zbulimi i mashtrimit në ofertat e produkteve, klasifikimi është prapa skenave çdo ditë duke analizuar të dhënat dhe duke prodhuar parashikime.