Minierat e të dhënave me algoritmin k-mean
K- algoritmi i clusteringut është një mjet i të dhënave për nxjerrjen e të dhënave dhe mjetet e mësimit të makinës, të përdorura për grumbullimin e vëzhgimeve në grupe të vëzhgimeve të lidhura pa ndonjë njohuri paraprake të këtyre marrëdhënieve. Me marrjen e mostrave, algoritmi tenton të tregojë se në cilën kategori, apo grup, të dhënat i përkasin, me numrin e grupeve që përcaktohen nga vlera k.
Algoritmi k- mjet është një nga teknikat më të thjeshta të grumbullimit dhe përdoret zakonisht në imazhe mjekësore, biometrike, dhe fusha të ngjashme. Avantazhi i k- clustering është se ai tregon për të dhënat tuaja (duke përdorur formën e saj pa mbikëqyrje) në vend që të udhëzosh algoritmin për të dhënat në fillim (duke përdorur formën e mbikëqyrur të algoritmit).
Nganjëherë quhet Algoritmi i Lloyd-it, veçanërisht në qarqet e shkencave kompjuterike, sepse algoritmi standard u propozua për herë të parë nga Stuart Lloyd më 1957. Termi "k-mjet" u krijua më 1967 nga James McQueen.
Si funksionet e algoritmit k-means
Algoritmi k- mjet është një algoritëm evolucionar që fiton emrin nga mënyra e veprimit të tij. Algoritmi grumbullon vrojtimet në grupe k , ku k është dhënë si një parametër hyrje. Pastaj cakton çdo vëzhgim në grupe që bazohen në afërsinë e vëzhgimit me mesataren e grupit. Mesatarja e grumbullimit pastaj rekonputohet dhe procesi fillon përsëri. Ja se si funksionon algoritmi:
- Algoritmi zgjedh në mënyrë arbitrare pikat k si qendrat fillestare të grumbullimit (mjetet).
- Çdo pikë në grupin e të dhënave është caktuar në grupin e mbyllur, bazuar në distancën euklidiane ndërmjet secilës pikë dhe çdo qendre grumbullimi.
- Çdo qendër cluster është recomuted si mesatare e pikave në atë grup.
- Hapat 2 dhe 3 përsëriten derisa grupet konvergojnë. Konvergjenca mund të definohet ndryshe varësisht nga zbatimi, por normalisht do të thotë se ose asnjë vëzhgim nuk ndryshon klasteret kur hapat 2 dhe 3 përsëriten, ose se ndryshimet nuk bëjnë një ndryshim material në përkufizimin e grupimeve.
Zgjedhja e numrit të grupimeve
Një nga disavantazhet kryesore për k- do të thotë grumbullimi është fakti që ju duhet të specifikoni numrin e grupeve si një input për algoritmin. Siç është projektuar, algoritmi nuk është në gjendje të përcaktojë numrin e duhur të grupimeve dhe varet nga përdoruesi që ta identifikojë atë paraprakisht.
Për shembull, nëse do të kishit një grup njerëzish që do të grupoheshin në bazë të identitetit gjinor binar si meshkuj ose femra, duke e quajtur algoritmin k- mjet duke përdorur inputin k = 3 do të detyronin njerëzit në tre grupe kur vetëm dy ose një hyrja e k = 2, do të sigurojë një përshtatje më të natyrshme.
Në mënyrë të ngjashme, nëse një grup individësh ishin lehtësisht të grumbulluar në bazë të gjendjes në shtëpi dhe e quajtët algoritmin k- mjet me inputin k = 20, rezultatet mund të jenë shumë të përgjithësuara për të qenë efektive.
Për këtë arsye, shpesh është një ide e mirë për të eksperimentuar me vlera të ndryshme të k për të identifikuar vlerën që i përshtatet më mirë të dhënave tuaja. Ju gjithashtu mund të dëshironi të shqyrtoni përdorimin e algoritmeve të tjera të minierave të të dhënave në kërkimin tuaj për njohuritë e mësuara nga makina.