Tytuł pozycji:
Discrimination of Symbolic Objects
Symbolic Data Analysis is an extension of multivariate analysis dealing with data represented in an extended form. Each cell in symbolic data table (symbolic variable) can contain data in form of single quantitative value, categorical value, interval, multivalued variable, multivalued variable with weights. Variable can be taxonomic, hierarchically dependent, logically dependent. Due to extended data representation Symbolic Data Analysis introduces new methods and also implements traditional methods that symbolic data can be treated as an input. Article shows how “classical” Bayesian discrimination rule can be adapted to deal with data of different symbolic types, presents kernel intensity measures for symbolic data and methods of obtaining probabilities of belongings to the classes. The example of using symbolic discriminant analysis for electronic mail filtering is given.
Symboliczna analiza danych jest rozszerzeniem metod wielowymiarowej analizy statystycznej ze względu na sposób reprezentacji danych. Każda komórka w symbolicznej tablicy danych (zmienna symboliczna) może reprezentować dane w postaci liczb, danych jakościowych (tekstowych), przedziałów liczbowych, zbioru wartości, zbioru wartości z wagami. Zmienne mogą ponadto reprezentować strukturę gałęziową oraz być hierarchicznie lub logicznie zależne. Ze względu na sposób reprezentacji symboliczna analiza danych wprowadza nowe metody ich przetwarzania oraz tak implementuje metody tradycyjne, żeby dane symboliczne mogły być ich danymi wejściowymi. W artykule pokazano, jak „klasyczna” analiza Bayesowska może być zaadoptowana dla różnych typów danych symbolicznych za pomocą jądrowego estymatora intensywności dla obiektów symbolicznych. Całość jest zakończona przykładem zastosowania analizy dyskryminacyjnej obiektów symbolicznych do filtrowania przychodzącej poczty elektronicznej.