Konstrukcja algorytmu automatycznej wyceny nieruchomości

Konstrukcja algorytmu automatycznej wyceny nieruchomości
Modele automatycznej wyceny (AVM) to jeden z najważniejszych przełomów technologicznych w dziedzinie wyceny nieruchomości. Rewolucjonizują sposób, w jaki instytucje finansowe, inwestorzy i pośrednicy określają wartość nieruchomości. Ich znaczenie rośnie wraz ze zwiększającą się liczbą zawieranych transakcji, wprowadzanych wymagań regulacyjnych oraz potrzeby zwiększania przejrzystości rynku.

W zależności od podmiotu, zakres zastosowań AVM jest bardzo szeroki. Banki wykorzystują je do szybkiego oszacowania wartości zabezpieczenia kredytów, co pozwala na automatyzację procesu ich udzielania i redukcję kosztów operacyjnych związanych np. z  aktualizacją wartości zabezpieczeń. Firmy ubezpieczeniowe stosują AVM do określania wartości nieruchomości przy kalkulacji wartości ubezpieczeniowej, inwestorzy korzystają z nich przy analizie portfela nieruchomości, monitorowaniu trendów rynkowych oraz ocenie potencjalnej stopy zwrotu, a platformy internetowe oferujące ogłoszenia nieruchomości wykorzystują je, aby dostarczyć użytkownikom przybliżone wyceny mieszkań i domów, co zwiększa przejrzystość rynku i ułatwia decyzje zakupowe.

Nowy model dostępny w AMRON

Począwszy od maja br., nowy model zautomatyzowanej wyceny nieruchomości udostępniło również Centrum AMRON. Dla użytkowników posiadających dostęp do Systemu AMRON możliwość generowania wycen z modelu zapewnia Raport Predykcji Wartości Nieruchomości. Odbiorcy spoza tego grona mogą natomiast korzystać z algorytmu za pośrednictwem strony www.ron24.pl.

Obowiązujące regulacje obligują banki i inne podmioty sektora finansowego do korzystania z metod transparentnych i weryfikowalnych, opartych na solidnych danych rynkowych. W procesie budowy algorytmu przywiązano zatem do tych kwestii szczególną wagę. Nie tylko posługuje się on weryfikowalnymi i udokumentowanymi metodami statystycznymi (Centrum AMRON zapewnia przy tym użytkownikom korzystającym z systemu pełny dostęp zarówno do dokumentacji, jak i walidacji rozwiązania), ale również wykorzystuje dane z Systemu AMRON III, podlegające stałej, rygorystycznej walidacji.

Celem wdrożonego algorytmu jest oszacowanie aktualnej ceny nieruchomości o charakterystykach zadanych przez użytkownika, na podstawie bieżących i historycznych danych transakcyjnych z rynku nieruchomości. W Systemie AMRON III wycena możliwa jest obecnie wyłącznie dla lokali mieszkalnych, jednak w przyszłości planowane jest uruchomienie opcji wyceny także dla domów jednorodzinnych. Oszacowana wartość nieruchomości zależy od wielu jej atrybutów, tj. położenia geograficznego, roku budowy, powierzchni lokalu, stanu technicznego, standardu lokalu, technologii budowy, powierzchni gruntu, otoczenia, liczby pomieszczeń, kondygnacji itp. Zasadniczą ideą metody jest znalezienie w bazie AMRON III nieruchomości podobnych do wycenianej i wykorzystanie informacji o ich cenach transakcyjnych do oszacowania jej wartości.

Osiem etapów

Proces wyceny nieruchomości w zastosowanym algorytmie składa się z ośmiu kluczowych etapów1:

  1. Stworzenie zmiennych dynamicznych.
  2. Podział zmiennych.
  3. Wybór rekordów „poprawnych”.
  4. Normalizacja zmiennych.
  5. Wybór najbliższych sąsiadów.
  6. Aktualizacja cen wybranych sąsiadów.
  7. Oszacowanie wartości wycenianej nieruchomości.
  8. Ocena jakości otrzymanej wyceny.

Ad 1). Etap ten obejmuje stworzenie pewnych nowych zmiennych, których wartości nie znajdują się w bazie, gdyż muszą zostać wypełnione dynamicznie – w zależności od zadanych przez użytkownika charakterystyk wycenianej nieruchomości. Przykładem może być zmienna „Odległość”, określająca geograficzną odległość nieruchomości znajdujących się w bazie od nieruchomości zadanej przez użytkownika.

Ad 2). Każda ze zmiennych objaśniających (tj. atrybutów charakteryzujących nieruchomości) przydzielana jest do jednej z trzech kategorii:

  • „zbędnych”, tj. zmiennych niemających wpływu na ceny nieruchomości (nie są one uwzględniane w dalszych etapach algorytmu);
  • „koniecznych”, tj. zmiennych, dla których różnice w ich wartości powodują, że dwie nieruchomości uznaje się za niepodobne, niezależnie od stopnia podobieństwa pozostałych zmiennych (mają one zatem charakter filtrujący rekordy);
  • „przydatnych”, tj. pozostałych zmiennych kształtujących ceny nieruchomości, niebędących zmiennymi „koniecznymi”.

Dokonany podział ma wpływ na rolę i sposób wykorzystania każdej ze zmiennych w dalszych etapach algorytmu i dokonywany jest przy wykorzystaniu wiedzy eksperckiej.

Ad 3). Na tym etapie dokonywana jest selekcja rekordów pod kątem określonych kryteriów ich poprawności. W szczególności z dalszej analizy w algorytmie odrzuca się transakcje zbyt odległe w czasie oraz te, w przypadku których nie podano niezbędnych informacji lub przyjmujące określone (niepożądane) wartości dla konkretnej zmiennej. Dokonuje się również odrzucenia rekordów charakteryzujących się występowaniem wartości skrajnych (tzw. outlierów) dla określonych zmiennych. Ponadto na tym etapie odrzuca się także rekordy, które nie mają identycznych wartości zmiennych „koniecznych” co wyceniana nieruchomość – np. uznając, że zmienną „konieczną” jest położenie geograficzne, w kolejnych etapach wykorzystuje się wyłącznie transakcje dotyczące nieruchomości o takim samym położeniu.

Przez pojęcie rekordy „poprawne” rozumie się w dalszej części algorytmu rekordy, które spełniły wszystkie przyjęte kryteria selekcji.

Ad 4). Normalizacja (unitaryzacja) dokonywana jest dla rekordów „poprawnych”, a jej celem jest transformacja zmiennych (które z natury przyjmują wartości z różnych zakresów) do zmiennych o wartościach z zakresu <0,1>.W algorytmie normalizuje się każdą zmienną „przydatną”, która jest na skali porządkowej lub silnej. Normalizacja jest niezbędna, aby uczynić poszczególne zmienne porównywalnymi, co jest konieczne w kolejnym etapie algorytmu, tj. w wyborze najbliższych sąsiadów.

Ad 5). Celem tego etapu jest wybór spośród znormalizowanych rekordów „poprawnych” najbardziej podobnych pod względem cech do wycenianej nieruchomości. Do określenia podobieństwa między nimi wykorzystano odległość Gowera umożliwiającą porównanie obiektów wielowymiarowych, których poszczególne współrzędne mają różną naturę (np. są zmiennymi ilościowymi lub jakościowymi). Obliczając odległość Gowera, nadano poszczególnym zmiennym określone wagi, które odzwierciedlają ustaloną ekspercko ważność danej cechy.

Następnie spośród rekordów „poprawnych” wybiera się te, które mają odległość Gowera mniejszą od zadanej z góry pewnej wartości granicznej. Na tym etapie, z wybranej grupy należy dodatkowo odrzucić rekordy posiadające wartość skrajną dla zmiennej objaśnianej (tj. ceny nieruchomości za m2). Otrzymane w ten sposób nieruchomości nazywane będą w dalszej części algorytmu najbliższymi sąsiadami.

Ad 6). Zadaniem tego etapu algorytmu jest zaktualizowanie cen wyznaczonych najbliższych sąsiadów na moment wyceny. W tym celu szacowany jest model trendu, a następnie za jego pomocą wyznaczone zostają zaktualizowane ceny. W algorytmie do wyznaczenia funkcji trendu zastosowano Lokalną Jądrową Regresję Liniową, należącą do grupy nieparametrycznych metod statystycznych. Zaletą zastosowanej metody jest jej duża elastyczność, polegająca na możliwości bardzo dobrego dopasowania się do analizowanych danych, dzięki czemu oszacowana funkcja regresji dobrze opisuje zróżnicowane zależności, również o nieliniowej dynamice.

Ad 7). Etap ten pełni kluczową rolę w skonstruowanym algorytmie, gdyż na podstawie dokonanych wcześniej czynności następuje w nim oszacowanie ceny zadanej nieruchomości. Zależy ona od atrybutów nieruchomości, a jej wyznaczenie odbywa się przy wykorzystaniu modelu regresji skonstruowanego na podstawie wyznaczonych najbliższych sąsiadów (tj. ich atrybutów i zaktualizowanych cen). Do tego celu zastosowano inną nieparametryczną metodę regresji – estymator Nadarayi-Watsona. W metodzie tej wyznaczona cena zadanej nieruchomości jest specyficznie liczoną średnią ważoną zaktualizowanych cen jej najbliższych sąsiadów, przy czym poszczególne wagi są tym większe, im większe jest podobieństwo (mierzone odległością Gowera) między danym najbliższym sąsiadem a wycenianą nieruchomością.

Ad 8). Celem tego etapu jest ocena jakości otrzymanej wyceny z modelu Nadarayi-Watsona. Na ocenę tę składają się dwa aspekty:

a) pomiar dopasowania modelu do danych, na podstawie których został on zbudowany,
b) oszacowanie błędu predykcji ex-ante modelu.

Im większa jest wartość wyznaczonego miernika dopasowania (tj. im bliższa jest poziomowi 100%), tym lepsze dopasowanie skonstruowanego modelu do danych. Z kolei im mniejsza jest wartość obliczonego błędu predykcji, tym większa jest moc prognostyczna modelu, czyli jego zdolność generowania dokładnych wycen.

Podsumowanie

W porównaniu z innymi automatycznymi systemami wyceny nieruchomości (ang. AVM), do zalet przedstawionego algorytmu należą przede wszystkim:

  • odporność na błędy i braki w danych;
  • elastyczność w dostosowaniu do charakteru danych, tj. możliwość uwzględnienia zmiennych na różnych skalach pomiarowych;
  • możliwość uwzględnienia wielu czynników wpływających na wycenę, przy jednoczesnej możliwości nadawania im różnego znaczenia (poprzez uwzględnienie wag);
  • zastosowanie metod pozwalających na uwzględnienie nieliniowości w danych;
  • wykorzystanie metod nieparametrycznych, które nie wymagają tak restrykcyjnych założeń dotyczących własności danych jak klasyczne modele ekonometryczne, a także założeń dotyczących charakteru modelowanych zależności;
  • skalowalność, polegająca na możliwości zastosowania do baz danych o różnej wielkości;
  • stosowanie metod i narzędzi, które są odporne na błędy obliczeniowe (np. problem braku zbieżności algorytmu, niewystarczająca liczba stopni swobody, nieokreśloność macierzy).

1 Algorytm został szczegółowo przedstawiony w publikacji Orzeszko W., Fałdziński M., Siemińska E, „Real estate valuation algorithm using nonparametric regression methods”, „Ekonomia i Prawo”, 2024, 23(4), s.655-673.

Źródło: Miesięcznik Finansowy BANK