항암 치료 부작용 등급 추론 소형 언어 모델 개발을 위한 데이터 혼합 전략
자료요약
**소형 언어 모델(sLM)**을 개발하고, 그 성능을 높이기 위한 데이터 혼합 전략을 제안한 연구입니다.
대형 언어모델(LLM)은 성능은 뛰어나지만 GPU 자원·비용·보안 문제로 한계가 있어,
오픈소스 sLM(Qwen2.5-3B·7B)을 활용했습니다.
모델 학습에는
① **서울아산병원 시범 임상 데이터(398건)**과
② **GPT-4o로 생성한 대화형 데이터(424건)**를 사용했습니다.
생성 데이터는 CTCAE 기준표와 대화 규칙을 포함해 zero-shot prompting으로 만들었고,
의료진이 등급을 검토했습니다.
실험에서는 실제 데이터와 생성 데이터를 다양한 비율로 혼합하여
부작용 등급 분류 정확도의 변화를 분석했습니다.
결과적으로, **실제:생성 비율이 5:5 또는 4:6일 때 최고 성능(정확도 95.83%)**을 보였으며,
이는 실제 데이터만 사용했을 때보다 8~9% 향상된 수치입니다.
생성 데이터가 실제 데이터의 불균형과 다양성 부족을 보완한 것으로 해석됩니다.
다만, 생성 데이터가 과도하게 많을 경우 오히려 성능이 저하되었습니다.
결론적으로, **적절한 데이터 혼합(약 50%)**은 sLM의 의료 데이터 추론 성능을
LLM 수준에 근접하게 향상시킬 수 있음을 보여주었습니다.
한계로는 실제 데이터 수가 적고, 생성 대화의 자연스러움 검증이 부족하다는 점이 지적되었습니다.
향후에는 고품질 생성 데이터 확보와 의료진 검증 강화가 필요하다고 제안합니다.
대형 언어모델(LLM)은 성능은 뛰어나지만 GPU 자원·비용·보안 문제로 한계가 있어,
오픈소스 sLM(Qwen2.5-3B·7B)을 활용했습니다.
모델 학습에는
① **서울아산병원 시범 임상 데이터(398건)**과
② **GPT-4o로 생성한 대화형 데이터(424건)**를 사용했습니다.
생성 데이터는 CTCAE 기준표와 대화 규칙을 포함해 zero-shot prompting으로 만들었고,
의료진이 등급을 검토했습니다.
실험에서는 실제 데이터와 생성 데이터를 다양한 비율로 혼합하여
부작용 등급 분류 정확도의 변화를 분석했습니다.
결과적으로, **실제:생성 비율이 5:5 또는 4:6일 때 최고 성능(정확도 95.83%)**을 보였으며,
이는 실제 데이터만 사용했을 때보다 8~9% 향상된 수치입니다.
생성 데이터가 실제 데이터의 불균형과 다양성 부족을 보완한 것으로 해석됩니다.
다만, 생성 데이터가 과도하게 많을 경우 오히려 성능이 저하되었습니다.
결론적으로, **적절한 데이터 혼합(약 50%)**은 sLM의 의료 데이터 추론 성능을
LLM 수준에 근접하게 향상시킬 수 있음을 보여주었습니다.
한계로는 실제 데이터 수가 적고, 생성 대화의 자연스러움 검증이 부족하다는 점이 지적되었습니다.
향후에는 고품질 생성 데이터 확보와 의료진 검증 강화가 필요하다고 제안합니다.








