독립 평가로 입증된 높은 정확도
Gender-API는 서비스의 정확도를 매우 중요하게 생각해. 최근, 이름 정보에 기반해 성별을 판단하는 우리의 서비스 신뢰도를 검증하기 위해 독립적인 평가가 진행되었어. 그 결과는 매우 고무적이었고, 여러 나라에 걸친 다양한 이름을 처리하는 데 있어 우리 API가 높은 정밀도와 효율성을 보여 준다는 사실을 입증했어.
연구 개요
메릴랜드 대학교의 Jim Hagberg가 우리 성별 식별 서비스를 수작업으로 검증된 온라인 자료와 비교해 오류율을 평가하는 검증 연구를 수행했어. 이 연구에서는 세 개의 과학 저널에 실린 연구 논문에서 추출한 이름들을 분석했어:
- Journal of Applied Physiology
- 스포츠 의학과 과학 분야에서의 활용
- International Journal of Sports Medicine
이번 분석에서는 연구자가 사전에 성별을 알지 못하는, 성별 중립적인 500개의 이름을 사용했습니다. 이 이름들은 온라인 검색을 통해, 저자와 연결된 이미지나 성별 지시 대명사 등을 기반으로 검증되었습니다.
성별 식별 방법
연구에서는 성별을 식별하기 위해 세 가지 독립적인 방법을 사용했어:
- 전통적인 이름 인식 방식으로, 널리 알려진 성별 고유 이름을 기준으로 판단했어.
- 연구자가 개인적으로 그 사람의 성별을 알고 있는 경우.
- Gender-API는 AI와 190개국에서 수집한 600만 개 이상의 이름 데이터베이스를 활용해 성별을 예측해.
주요 결과
- 500개의 이름 중 11개(2.2%)는 Gender-API 데이터베이스에서 결과를 찾을 수 없었습니다.
- 나머지 488개의 이름 중 435개(89.1%)는 최소 80% 이상의 신뢰도로 정확하게 판별되었습니다.
- 392개 이름(80.3%)은 90%를 초과하는 신뢰도로 정확하게 판별되었습니다.
- 359개 이름(73.5%)은 95%를 초과하는 신뢰도로 정확하게 판별되었습니다.
- 282개 이름(57.8%)은 98%를 초과하는 신뢰도로 정확하게 판별되었습니다.
모든 예측값을 통틀어 평균 신뢰도는 94% ± 13%였습니다. 이는 드물게 사용되는 이름에 대해서도 높은 신뢰성을 보여줍니다.
오차율 분석
총 22개 이름(4.5%)에서 Gender-API 예측 결과와 온라인 검증 결과 사이에 차이가 나타났습니다. 그러나 80% 신뢰도 기준을 적용하면, 오분류 사례는 단 7개 이름(1.4%)으로 줄어들었습니다.
결론
이 독립적인 검증 연구는 Gender-API가 매우 신뢰할 수 있는 성별 식별 도구임을 확인해 줘. 80%% 신뢰도 임계값을 사용했을 때 오분류율이 단지 1.4%%에 불과해, 우리의 API는 이름만으로도 정확하면서도 대규모로 확장 가능한 성별 분류를 제공해.
Gender-API는 검증된 데이터에 기반한 성별 식별 솔루션을 찾는 연구자, 기업, 그리고 애널리스트들에게 신뢰할 수 있는 선택이야.