Forum

Validarea datelor ș...
 
Notifications
Clear all

Validarea datelor și triangularea, mai înțelese?

2 Posts
2 Users
0 Reactions
5 Views
Posts: 4
Topic starter
(@george.badea)
Active Member
Joined: 3 zile ago

A mai pățit cineva ceva similar cu mine? Tocmai am terminat capitolul despre validarea datelor și trișbalarea (cum i se zice uneori) modelului pentru proiectul meu de master și, sincer, nu știu dacă doar mie mi se pare că explicațiile par puțin subțiri sau prea teoretice. În sensul ăsta, parcă nu mi-e clar, de exemplu, cât de multă importanță trebuie să acord verificării datelor brute înainte de a face triangularea efectivă. S-a tot discutat, dar cred că n-am găsit o explicație clară, aplicabilă pentru cazul meu.

Mă lupt cu partea asta de câteva zile pentru că am un set de date relativ mare, dar unele valori aproape sigur sunt necorespunzătoare sau cel puțin suspecte, și nu știu dacă pot ignora pur și simplu. Sincer, nu știu dacă e doar o problemă de metodologie sau dacă ar trebui să încerc să aplic niște tehnici mai sofisticate pentru validare înainte de a trece la triangulare.

Aș vrea, dacă cineva a mai trecut prin asta, să-mi spună dacă are niște recomandări sau dacă poate îmi poate explica într-un mod mai clar, mai practică, cum se face validarea datelor în cazul acestor analytical methods. Mă tot întreb dacă nu cumva poate fi mai mult despre experiența de lucru cu datele și mai puțin despre tehnici strict teoretice.

Anyway, e frustrant să te pierzi în detalii și să n-ai cu cine discuta pe bune, așa că dacă aveți câteva idei sau experiențe, le aștept cu interes!


1 Reply
Posts: 209
(@alex.barbulescu)
Estimable Member
Joined: 10 luni ago

Salut, George! Înțeleg perfect cum te simți, și eu am fost în situația asta de multe ori. Validarea datelor brute e cu adevărat crucială, mai ales când lucrezi cu seturi mari și variabile suspecte. Pentru moment, îți recomand să începi cu niște pași simpli, care te pot ajuta să filtrezi și să înțelegi mai bine datele:

  1. Statistici descriptive: calculează mediană, mediană absolută a deviației, quartilele. Ele îți pot indica dacă există valori extreme sau anomalii. De exemplu, dacă ai valori care depășesc de 3 ori deviația standard, ele pot fi suspecte.
  1. Vizualizări simple: boxplot-uri, histograme sau scatter plots în funcție de tipul de date. Așa vei putea observa mai ușor valori outliers sau pattern-uri ciudate.
  1. Verificări punctuale: dacă ai anumite valorișa cum pare, încearcă să găsești sursa lor - poate fi o greșeală de input, o problemă de unități sau altă cauză. E foarte util să compari cu datele din surse secundare, dacă sunt disponibile.
  1. Filter și curățare: dacă identifici date suspecte, e bine să le excludi sau să le tratezi diferit, dar cu grijă, ca să nu pierzi informații relevante.

Cât despre metodologia de trișbalare (sau validare a modelului), eu personal cred că e nevoie să faci un set inițial de testare pe date curate, dacă se poate. În practică, cred că procesul trebuie să fie unul iterativ: verifici, filtrezi, validezi, și abia apoi mergi mai departe cu modelul. Dacă datele sunt foarte zgomotoase, poate fi nevoie să aplici tehnici mai sofisticate, ca detectarea outliers automatizată sau imputare pentru valorile lipsă.

Și da, experiența contează foarte mult. În final, nu există o regulă universală, ci mai degrabă un "şmecherie" ca să înțelegi ce acțiuni trebuie să faci în funcție de setul tău specific de date. Azi am avut o situație similară și am descoperit o serie de valori anormale chiar după vizualizare, care mi-au schimbat drumul analizei.

Sper să te ajute puțin această abordare și, dacă vrei, putem discuta mai în detaliu despre datele tale. Ce set de date lucrezi și ce tip de modele vrei să aplici?


Reply
Share: