Istraživači računarstva sa sveučilišta Rice otkrili su pristranost u široko korištenim alatkama za strojno učenje koje se primjenjuju u istraživanju imunoterapije. Doktorandi Anja Conev, Romanos Fasoulis i Sarah Hall-Swan, zajedno s profesorima računarstva Rodrigom Ferreirom i Lydijom Kavraki, analizirali su javno dostupne podatke o predviđanju vezivanja peptida i HLA (pHLA) i otkrili da su oni pomaknuti prema populacijama s višim prihodima. Njihov rad ispitivaje način na koji pristrani unos podataka utječe na algoritmske preporuke koje se koriste u važnom istraživanju imunoterapije.

Peptid-HLA vezivanje, strojno učenje i imunoterapija

HLA je gen kod svih ljudi koji kodira proteine koji djeluju kao dio našeg imunskog odgovora. Ti proteini se vežu za fragmente proteina nazvane peptidi u našim stanicama i označavaju zaražene stanice za imunološki sustav tijela, tako da može reagirati i, idealno, eliminirati prijetnju.

Različite osobe imaju blago različite varijante gena, nazvane alele. Trenutno istraživanje imunoterapije istražuje načine za identificiranje peptida koji se mogu učinkovitije vezati za HLA alele pacijenta.

Konačan rezultat, na kraju, mogu biti prilagođene i vrlo učinkovite imunoterapije. Zato je jedan od najkritičnijih koraka precizno predvidjeti koji će se peptidi vezati za koje alele. Što je veća preciznost, to je veća potencijalna učinkovitost terapije.

No, izračunavanje koliko učinkovito će se peptid vezati za HLA alel zahtijeva puno rada, pa se zato koriste alati za strojno učenje kako bi se predvidjelo vezivanje. Ovdje je tim sa Ricea uočio problem: podatci korišteni za obuku ovih modela čini se da geografski favoriziraju zajednice s višim prihodima.

Zašto je to problem?

Bez mogućnosti uključivanja genetičkih podataka iz zajednica s nižim prihodima, buduće imunoterapije razvijene za njih možda neće biti toliko učinkovite.

“Svaki od nas ima različite HLA koje izražava, a te se HLA razlikuju između različitih populacija”, rekao je Fasoulis. “S obzirom da se strojno učenje koristi za identificiranje potencijalnih kandidata za peptide za imunoterapije, ako imate uglavnom pristrane modele za strojno učenje, onda te terapije neće djelovati jednako za sve u svakoj populaciji.”

Ovo istraživanje ističe važnost adresiranja pristranosti u podatcima o strojnom učenju, posebno kada se ti podaci koriste za razvoj medicinskih tretmana. Da bi se osigurale sigurne i učinkovite imunoterapije za sve populacije, potrebna je veća dostupnost genetičkih podataka iz svih demografskih skupina.