Temat Numeru: Skoring w banku – modele statystyczne czy data mining?

Udostępnij Ikona facebook Ikona LinkedIn Ikona twitter

Modele skoringowe są już obecnie standardowym narzędziem wsparcia procesu oceny wiarygodności kredytowej klientów indywidualnych oraz małych i średnich przedsiębiorstw. Coraz popularniejsze stają się także w obszarze ryzyka operacyjnego, wspierając proces wykrywania nadużyć oraz analitycznego CRM, gdzie umożliwiają lepszą identyfikację grup klientów z najwyższym potencjałem zakupowym.

Grzegorz Migut, StatSoft Polska
www.StatSoft.pl

Osoby pragnące modelować zależności z tych lub innych obszarów działalności banku stoją przed wyborem wielu metod analitycznych umożliwiających budowę tego typu modeli. Dlatego też do wprowadzonego w artykule Ziemowita Kordeckiego (str. xx-yy) podziału modeli skoringowych ze względu na sposób ich budowy – eksperckie/statystyczne oraz rodzaj cech wykorzystywanych do ich tworzenia – aplikacyjne/behawioralne warto dodać jeszcze jeden podział ze względu na rodzaj metody analitycznej, jaką planujemy wykorzystać do ich budowy.

Metody możemy podzielić na dwie grupy. Pierwsza grupa to klasyczne – statystyczne, do których możemy zaliczyć: regresję logistyczną, regresję probit, analizę dyskryminacyjną czy też model proporcjonalnego hazardu Coxa. Druga grupa to metody typu data mining, spośród których najpopularniejsze to sieci neuronowe, drzewa wzmacniane (boosted trees), losowy las (random forests) czy metoda wektorów nośnych (support vector machines). Wyczerpujące porównanie obydwóch grup metod wymagałoby stosownej rozprawy naukowej. W niniejszym artykule skoncentrujemy się na charakterystycznych cechach dwóch metod: regresji logistycznej oraz drzewach wzmacnianych oraz ich konsekwencjach dla możliwości wykorzystania ich w branży finansowej.

Regresja logistyczna jest niewątpliwie najbardziej popularną metodą budowy modeli skoringowych. Podobnie jak pozostałe metody zaliczane do grupy metod statystycznych, pozwala na przedstawienie modelowanych zależności w postaci wzoru matematycznego. Dodatkowo uzyskany wzór przekształcany jest zwykle do formatu karty skoringowej (patrz. rysunek 1 Karta skoringowa wygenerowana w programie STATISTICA Zestaw Skoringowy), umożliwiając zrozumienie i interpretację zbudowanego modelu nawet osobom niezajmującym się analizą danych.

Drzewa wzmacniane to metoda data mining polegająca na budowie sekwencji modeli, przy czym każdy kolejny przykłada większą wagę do tych obserwacji, które zostały błędnie zaklasyfikowane przez modele poprzednie. W kolejnych modelach błędnie zaklasyfikowane obserwacje otrzymują większe wagi, przez co każdy kolejny model uczy się lepiej rozróżniać obserwacje wcześniej źle zaklasyfikowane. Finalny model często składa się więc z kilkuset składowych modeli, które głosując, dają końcowy wynik.

Już sama podstawowa charakterystyka obydwu metod pozwala na wychwycenie podstawowych różnic w tych podejściach. Z jednej strony metody statystyczne pozwalają uzyskać modele o czytelnej i prostej w interpretacji postaci, w których możemy łatwo ocenić kierunek i siłę wpływu ...

Artykuł jest płatny. Aby uzyskać dostęp można:

  • zalogować się na swoje konto, jeśli wcześniej dokonano zakupu (w tym prenumeraty),
  • wykupić dostęp do pojedynczego artykułu: SMS, cena 5 zł netto (6,15 zł brutto) - kup artykuł
  • wykupić dostęp do całego wydania pisma, w którym jest ten artykuł: SMS, cena 19 zł netto (23,37 zł brutto) - kup całe wydanie,
  • zaprenumerować pismo, aby uzyskać dostęp do wydań bieżących i wszystkich archiwalnych: wejdź na BANK.pl/sklep.

Uwaga:

  • zalogowanym użytkownikom, podczas wpisywania kodu, zakup zostanie przypisany i zapamiętany do wykorzystania w przyszłości,
  • wpisanie kodu bez zalogowania spowoduje przyznanie uprawnień dostępu do artykułu/wydania na 24 godziny (lub krócej w przypadku wyczyszczenia plików Cookies).

Komunikat dla uczestników Programu Wiedza online:

  • bezpłatny dostęp do artykułu wymaga zalogowania się na konto typu BANKOWIEC, STUDENT lub NAUCZYCIEL AKADEMICKI