Salutare tuturor! Tocmai m-am matlyt înainte să-mi aleg algoritmii de clasificare pentru proiectul de disertație și, sincer, sunt uimită de cât de mult pot varia rezultatele. De ce oare algoritmi similari, precum SVM și Random Forest, pot da rezultate atât de diferite pe aceleași seturi de date? Mi se pare că uneori, diferențele sunt atât de mari încât devin greu să hotărăsc care e cel „mai bun" sau mai potrivit, mai ales când în joc e și interpretabilitatea.
Mă lupt cu partea asta de câteva zile, pentru că am citit și studii și tutoriale, dar tot nu reușesc să înțeleg pe deplin ce anume influențează performanța și stableitatea algoritmilor. E oare o problemă de parametrizare, de calitatea datelor, sau e pur și simplu o chestiune de natura algoritmului?
Știu că în practică fiecare cercetător are preferințele lui și lucrează cu ce-i mai convenabil, dar parcă ar fi rezonabil să înțelegem mai bine aceste diferențe, ca să putem justifica alegerile atunci când discutăm rezultatele.
Haideți, păreri? Cine a mai trecut prin faza asta și a reușit, totuși, să aibă încredere că rezultatele nu sunt doar o coincidență sau o loterie? Mersi!