eserv.ru // ChiSquaredDistribution

oldwiki /2003-08-27 19:53/ (v1)
Продукты и услуги Скачать Документация Купить Поддержка Форумы Партнёрам Статьи О компании
News
15.05.2012
Eserv504
15.05.2012
ActiveSync
01.04.2012
Eproxy508
25.03.2012
Eserv503
26.02.2012
Eserv502
08.02.2012
UMI.CMS
22.12.2011
Eserv431
20.12.2011
Eproxy507
15.11.2011
Eproxy506
19.09.2011
Eproxy505
08.09.2011
Eserv430
07.09.2011
Lightning
19.07.2011
PoweredBy
16.07.2011
IPv6
08.07.2011
Eproxy5beta1
17.06.2011
IPv6DNS
13.06.2011
IPv6Mail
21.03.2011
Eserv428
22.10.2010
Eserv426
22.10.2010
SSL
22.04.2010
Eserv423
20.04.2010
Eserv4WhatsNew
19.04.2010
EservLDAP
19.04.2010
EservDHCP
19.04.2010
EservRubricator
08.04.2010
EservDNS
08.04.2010
NSСI
08.04.2010
WPAD
27.03.2010
Eserv422
27.03.2010
Eserv4Docs
26.03.2010
Eserv4FAQ
21.03.2010
EservIrc
05.03.2010
Eserv421
05.03.2010
HttpProxy
02.03.2010
EservVideo
02.12.2009
Eserv4Wiki
02.12.2009
Eserv4acWEB
02.12.2009
PopPull
22.11.2009
PigMailPigProxy2/WhatsNew
22.11.2009
PigMail/WhatsNew
23.09.2009
FossilEservHowTo
22.09.2009
SourceCodeManagement
22.09.2009
FossilScm
16.09.2009
SendEmail
08.09.2009
RoundCube
07.05.2009
GitScm
07.05.2009
GitEservHowTo
06.05.2009
SunBird

"Хи-квадрат" распределение (Chi-Squared Distribution)

Кроме теоремы Байеса при классификации почты используются "хи-квадрат вероятности". Цитировать здесь не буду, формул много Теорию можно найти здесь:

Статья "Хи-квадрат распределение" в БСЭ
Статья "Chi-Squared Distribution" на Wolfram Research
Как применяется это в программе SpamBayes

Я не совсем согласен с "теоретическими предпосылками", которые привели авторов SpamBayes к решению сменить режим классификацией по умолчанию с Байесового метода на "хи-квадрат". Причина их неудач с байесовой классификации в том, что они использовали её ограниченно — только по двум категориям — спам/не_спам (как, кстати, и все остальные известные мне байесовы фильтры, кроме PopFile!) При использовании бОльшего числа категорий (классов) при классификации (я, например, использую восемь) проблема "неуверенности" фильтра и, как результат, ложных срабатываний при вынужденном выборе всего из двух категорий почти автоматически отпадает. Если бы они перестроили байесовы графики с учетом нескольких категорий, то убедились бы в этом

Забавно, на следующий день аналогичные мысли высказывают разработчики PopFile:


Original Message
From: SourceForge.net [mailto:noreply@sourceforge.net]
Sent: 21 августа 2003 г. 18:52
To: noreply@sourceforge.net
By: sschinke

http://cvs.sourceforge.net/cgi-bin/viewcvs.cgi/spambayes/spambayes/contrib/nway.py

It looks like a rough kludge to get n-way classification from several 2-way classifiers.

You have to train each of the n ways individually (buckets that are FOR the n'th way are trained as spam, all other buckets trained as non-spam) and then the final message score comes out as whichever of the 2-way classifiers scored as "spam".

I like our system better. *g*

Хотя есть не согласные с этим: http://home.dataparty.no/kristian/reviews/bayesian/

Работает на Eserv/7.0.beta1/Linux/arm64 (Dec 25 2023)