Çfarë duhet të dini rreth filtrimit spam të Bayesian

by Heinz Tschabitscher

Gjeni se si statistikat ndihmojnë në ruajtjen e kutisë suaj të pastër

Filtra Bayesian spam llogarisin probabilitetin e një mesazhi që është spam bazuar në përmbajtjen e tij. Ndryshe nga filtrat e thjeshtë të bazuara në përmbajtje, filtrimi i spameve nga Bayesian mëson nga spam dhe nga postë të mirë, duke rezultuar në një qasje shumë të fuqishme, përshtatëse dhe efikase anti-spam, e cila, më së miri, nuk i kthen dot ndonjë të rreme.

Si e pranoni emailin junk?

Mendoni se si zbuloni spam . Një vështrim i shpejtë shpesh është i mjaftueshëm. Ti e di atë që duket si spam dhe e di se çfarë po duket si mail i mirë.

Probabiliteti i spamit që duket si postë e mirë është rreth ... zero.

Duke shënuar filtra të bazuara në përmbajtje nuk përshtaten

A nuk do të ishte mirë nëse filtrat automatikë të spam-it funksiononin ashtu?

Duke shënuar filtra të spamë të bazuar në përmbajtje, provojeni vetëm këtë. Ata kërkojnë fjalë dhe karakteristika të tjera tipike të spamit. Çdo element karakteristik është caktuar një rezultat, dhe një rezultat spam për të gjithë mesazhin është llogaritur nga rezultatet individuale. Disa filtra të rezultateve gjithashtu kërkojnë karakteristikat e postës së ligjshme, duke ulur rezultatin përfundimtar të një mesazhi.

Qasja e filtrave të rezultateve funksionon, por ka gjithashtu disa pengesa:

Lista e karakteristikave është ndërtuar nga spam (dhe mail i mirë) në dispozicion të inxhinierëve të filtrit. Për të marrë një zotërim të mirë të tipit tipik që dikush mund të marrë, mail-i duhet të mblidhet në qindra adresa email. Kjo dobëson efikasitetin e filtrave, veçanërisht sepse karakteristikat e postës së mirë do të jenë të ndryshme për secilin person , por kjo nuk merret parasysh.
Karakteristikat për të kërkuar janë pak a shumë të vendosura në gur . Nëse spammers përpiqen për të përshtatur (dhe të bëjnë spam e tyre të duket si mail të mirë në filtra), karakteristikat filtrim duhet të tweaked me dorë - një përpjekje edhe më të mëdha.
Rezultati i caktuar për secilën fjalë bazohet ndoshta në një vlerësim të mirë, por është ende arbitrar. Dhe si lista e karakteristikave, ajo nuk përshtatet as me botën e ndryshueshme të spam-it në përgjithësi as ndaj nevojave të një përdoruesi individual.

Filters Spam Bayesian shkulen vetveten, duke u bërë më mirë dhe më mirë

Filtrat Bayesian të spamit janë një lloj i filtrave të bazuara në përmbajtje. Qasja e tyre largon me problemet e filtrave të thjeshta të shënimit të spam, dhe kjo e bën këtë në mënyrë radikale. Meqë dobësia e filtrave të rezultateve është në listën e karakteristikave të ndërtuara me dorë dhe pikëve të tyre, kjo listë eliminohet.

Në vend të kësaj, filtrat e spamit Bayesian krijojnë vetë listën. Idealisht, filloni me një numër (të madh) emailesh që e keni cilësuar si spam, dhe një bandë tjetër me postë të mirë. Filtrat shikojnë në të dyja dhe analizojnë postën e ligjshme si dhe spam për të llogaritur probabilitetin e karakteristikave të ndryshme që shfaqen në spam, dhe në postë të mirë.

Si një Filter Spam Bayesian shqyrton një email

Karakteristikat e filtrit Bayesian të spamit mund të shikojnë mund të jenë:

fjalët në trupin e mesazhit, sigurisht, dhe
headers saj (dërguesit dhe rrugët e mesazhit , për shembull!), por gjithashtu
aspekte të tjera të tilla si HTML / CSS (si ngjyra dhe formate të tjera), ose madje
fjale dhe fjale
meta informacion (ku për shembull paraqitet një frazë e veçantë).

Nëse një fjalë, "Cartesian" për shembull, nuk shfaqet kurrë në spam, por shpesh në emailin legjitim që merrni, probabiliteti që "Cartesian" tregon spam është afër zero. "Toneri", nga ana tjetër, shfaqet ekskluzivisht dhe shpesh në spam. "Toneri" ka një probabilitet shumë të lartë për t'u gjetur në spam, jo shumë më poshtë se 1 (100%).

Kur vjen një mesazh i ri, ai analizohet nga filtri i spamit Bayesian dhe probabiliteti i mesazhit të plotë të spamit llogaritet duke përdorur karakteristikat individuale.

Supozojmë se një mesazh përmban "Cartesian" dhe "Toner". Nga këto fjalë vetëm nuk është ende e qartë nëse kemi spam ose postë legit. Karakteristika të tjera do të (me shpresë dhe me siguri) do të tregojnë një probabilitet që lejon filtrin që të klasifikojë mesazhin si spam ose mail të mirë.

Filtra Spam Filtrim Bayesian mund të mësojnë automatikisht

Tani që kemi një klasifikim, mesazhi mund të përdoret për të trajnuar më tej filtrin. Në këtë rast, ose mundësia e "Cartesian" që tregon postën e mirë është ulur (nëse mesazhi që përmban "Cartesian" dhe "Toner" është zbuluar si spam), ose duhet të rishqyrtohet probabiliteti i "tonerit" që tregon spamin.

Duke përdorur këtë teknikë auto-adaptive, filtrat Bayesian mund të mësojnë nga vendimet e tyre dhe të përdoruesve (nëse ajo korrigjon manualisht një vlerësim të gabuar nga filtrat). Përshtatshmëria e filtrimit Bayesian gjithashtu siguron që ato janë më efektive për përdoruesin individual të email-it. Përderisa shumica e spamit mund të kenë karakteristika të ngjashme, posta e ligjshme është tipikisht e ndryshme për të gjithë.

Si mund të shkaktojnë Spammerët Filtra të Kaluara të Bayesianëve?

Karakteristikat e postës së ligjshme janë po aq të rëndësishme për procesin e filtrimit Bayesian të spam si spam. Nëse filtrat janë trajnuar në mënyrë specifike për çdo përdorues, spammers do të kenë një kohë edhe më të vështirë duke punuar rreth filtrave të të gjithëve (ose madje edhe më shumë njerëzve), dhe filtrat mund të përshtaten pothuajse çdo gjë që spammers përpiqen.

Spammerët do ta bëjnë atë vetëm filtra të mirëfilltë të Bayesian, nëse ata bëjnë që mesazhet e tyre të spam të duken në mënyrë të përkryer si e përditshmja e zakonshme që secili mund të marrë.

Spammers zakonisht nuk dërgojnë email të tillë të zakonshëm. Le të supozojmë se kjo është për shkak se këto email nuk punojnë si junk email. Pra, shanset janë se ata nuk do të bëjnë atë kur e zakonshme, email i mërzitshëm janë mënyra e vetme për ta bërë atë filtra spam të kaluar.

Nëse spamterët kalojnë në shumicën e mesazheve të zakonshme, megjithatë, përsëri do të shohim shumë spam në Inboxet tonë, dhe emaili mund të bëhet po aq frustrues sa ishte në ditët para Bayezianëve (ose edhe më keq). Ajo gjithashtu do të ketë shkatërruar tregun për shumicën e llojeve të spam, dhe kështu nuk do të zgjasë për shumë kohë.

Treguesit e Fortë mund të jenë Filtër Bayesian Spam Achilles & # 39; takë

Një përjashtim mund të perceptohet për spammers që të punojnë rrugën e tyre përmes filtrave Bayesian edhe me përmbajtjen e tyre të zakonshme. Është në natyrën e statistikave Bayesian se një fjalë ose karakteristikë që shumë shpesh shfaqet në postën e mirë mund të jetë aq e rëndësishme sa të kthehet ndonjë mesazh nga shikimi si spam për t'u vlerësuar si proshutë nga filtri.

Nëse spamterët gjejnë një mënyrë për të përcaktuar fjalët e tua të sigurta të zjarrit, duke përdorur pranimet e kthimit të HTML për të parë se cilat mesazhe hapni, për shembull, ato mund të përfshijnë një prej tyre në një postë junk dhe t'ju arrijnë edhe përmes një sistemi të mirë- trajnuar filtër Bayesian.

John Graham-Cumming e ka provuar këtë duke lënë dy filtra Bayesian kundër njëri-tjetrit, një "i keq" i përshtatur për mesazhet që gjenden për të marrë filtrin "të mirë". Ai thotë se funksionon, edhe pse procesi është i gjatë dhe kompleks. Ne nuk mendojmë se do të shohim shumë gjëra që ndodhin, të paktën jo në një shkallë të gjerë dhe jo të përshtatura për karakteristikat e emailave të individëve. Spammers mund (të përpiqen) të kuptojnë disa fjalë kyçe për organizata (diçka si "Almaden" për disa njerëz në IBM ndoshta?).

Zakonisht, spam gjithmonë do të jetë (në mënyrë të konsiderueshme) ndryshe nga posta e zakonshme ose nuk do të jetë spam, megjithatë.

Linja e Poshtme: Forca e Filtrimit Bayesian mund të jetë Dobësia e tij

Filtrat Bayesian të spamit janë filtra të bazuara në përmbajtje që:

janë të trajnuar posaçërisht për të njohur spamin dhe postën e mirë të përdoruesit të një email-i individual , duke i bërë ato shumë efektive dhe të vështira për t'u përshtatur për të dërguar spammers.
mund vazhdimisht dhe pa shumë përpjekje apo analiza manuale të përshtaten me truket e fundit të spammerëve.
merr parasysh llogarinë e mirë të përdoruesit individual dhe ka një përqindje shumë të ulët të pozicioneve false .
Për fat të keq, nëse kjo shkakton besim të verbër në filtrat anti-spam të Bayesian, ai e bën gabimin e rastit edhe më serioz . Efekti i kundërt i negative negative (spam që duket tamam si postë e rregullt) ka potencial të shqetësojë dhe pengojë përdoruesit.