Kako se širi epidemija HIV-a i šta nam o tome govore podaci mobilne telefonije


HIV ima razorne socijalne, demografske i ekonomske posledice po Afriku. Sa 3,7% zaražene populacije, Obala Slonovače ima najveću stopu zaraze u zapadnoj Africi i generalizovanu epidemiju.  Bolest se širi van rizičnih grupa i pogađa celokupnu populaciju, što zahteva razvoj nacionalnih planova za prevenciju HIV-a.

 

Trenutno postoji veliko interesovanje za istraživanje podataka mobilne telefonije u epidemiološke svrhe. Mobilne telekomunikacije učestvuju u eri velikih podataka stvaranjem ogromne količine zapisa o pojedinostima poziva (eng. Call detail records – CDR). Operatori mobilne telefonije prikupljaju ove podatke kad god se telefonom šalje tekstualna poruka ili upućuje poziv. CDR zapis sadrži vreme komunikacije, identifikatore inicijatora i primaoca poziva/poruke kao i bazne stanice koje su korišćene u komunikaciji. Na ovaj način mobilni telefoni približno lociraju korisnika u prostoru i vremenu i time pružaju ogromne mogućnosti za analizu mobilnosti i obrazaca ponašanja ljudi.

 

Da bi bolje razumeli prostornu raspodelu epidemije HIV-a u 50 departmana Obale Slonovače, istraživači Instituta BioSense analizirali su povezanost među ljudima na osnovu ostvarenog telekomunikacionog saobraćaja i njihove mobilnosti, na osnovu podataka dobijenih od operatora mobilne telefonije. Izdvojeni obrasci ponašanja zatim su dovedeni u vezu sa prostornim procenama rasprostranjenosti HIV-a (slika 1) iz studija međunarodnih organizacija UNAIDS (Joint UN Programme on HIV and AIDS) i DHS (Demographic and Health Surveys).

Zastupljenost HIV-a u (a) 10 administrativnih regiona (b) 50 departmana. Procenjene vrednosti su u opsegu od 0,6 do 5,7%. Mape prikazuju prostornu varijabilnost u distribuciji HIV-a u Obali Slonovače i otkrivaju u kojim su departmanima žarišta epidemije.

Fuzija epidemioloških podataka i podataka mobilne telefonije omogućila nam je identifikaciju ključnih obeležja koja su u korelaciji sa rasprostranjenošću HIV-a i mogu poslužiti za praćenje epidemije. Da bismo izgradili model predikcije prevalence bolesti, oslonili smo se na algoritme mašinskog učenja, ekstrakciju obeležja iz podataka i rekurzivnu eliminaciju obeležja. Dobijeni rezultati ukazuju na to da su komunikaciona povezanost u noćnim satima, prostorna površina obuhvaćena kretanjem korisnika i ukupne migracije snažno povezane sa HIV-om. Ustanovili smo da se snažne veze i čvorišta u komunikaciji poklapaju sa žarištima HIV-a, a da najfrekventnije putanje u mobilnosti korisnika povezuju upravo regione sa većom rasprostranjenošću.

Značajne veze za (a) ukupan telekomunikacioni saobraćaj (b) telekomunikacioni saobraćaj u noćnim satima. Grafici ističu najjače veze u komunikaciji i jasno se uočavaju čvorišta. Čvorišta odgovaraju žarištima HIV-a i može se primetiti da veća čvorišta imaju veće stope rasprostranjenosti virusa. Vizuelno se lako uočava da su u severnom delu zemlje veze između depatmana tanje i njihov broj je manji. Dobijeni rezultat ukazuje na  slabiju socijalnu povezanost u severnom delu zemlje, što je mogući uzrok sporijeg širenja virusa u tom delu, a samim tim i njegove manje rasprostranjenosti.

Obeležja identifikovana na osnovu podataka mobilne telefonije mogu se kontinuirano meriti i koristiti za praćenje promena u rasprostranjenosti HIV-a. Na osnovu obeležja i prediktivnih modela mogu se generisati i rani znaci upozorenja na moguće povećanje broja obolelih.

Analiza uticaja obeležja na rasprostranjenost HIV-a po departmanima. Prikazane su srednje vrednosti i standardne devijacije uticaja dva obeležja: noćnog telekomunikacionog saobraćaja i dolazne migracije, oba normalizovana populacijom departmana. Veća komunikaciona povezanost tokom noći i dolazne migracije ukazuju na veću rasprostranjenost HIV-a u pojedinim departmanima. Crvene strelice su znaci upozorenja za departmane – izmerene vrednosti obeležja ukazuju na povećan rizik od širenja virusa.

Naša studija predstavlja prvi pokušaj povezivanja podataka mobilne telefonije i HIV epidemiologije. Rezultati postavljaju temelj za dalja istraživanja sa ciljem razumevanja prostorne heterogenosti HIV-a, izgradnje prediktivnih modela za potrebe unapređenja javno-zdravstvenih kampanja i donošenje odluka o intervencijama. Zajedno sa drugim studijama na velikim količinama podataka u HIV epidemiologiji, koje koriste podatke sa Tvitera i sa društvenih mreža, naše istraživanje se uklapa u širu inicijativu digitalne epidemiologije.