При переходе на цифровизацию здравоохранения необходимо безопасное управление клиническими данными при сохранении конфиденциальности пациентов. Новое исследование, опубликованное в журнале Scientific reports, сравнивает модели GPT-3.5 и GPT-4 в обезличивании записей и генерации синтетических данных с использованием API и авторских подсказок для оптимизации вычислительной эффективности.
В клинических записях содержится важная информация для медицинских исследований, в том числе демографические данные, история болезни и планы лечения. Модели GPT-3.5 и GPT-4 могут имитировать тексты, из-за чего они более подходят для создания синтетических клинических заметок.
Данные предоставил EHR в Онкоцентре имени короля Хусейна (KHCC), клинические записи были обработаны с использованием контекстного обучения. Показатели точности, отзыва, оценки F1 и аккуратности дали оценку эффективность моделей. По итогам ручных и автоматических проверок были гарантированы сохранение лингвистического качества и клинической полезности заметок, пишет Gazeta.SPb.
Итоги показывают, что GPT-4 значительно превысил GPT-3.5, показав точность 0,9925, полноту 0,8318, и точность 0,9911. Данные результаты говорят о потенциале GPT-4 как инструменте для защиты конфиденциальности пациентов и роста доступности клинических данных для исследований. Эта работа показывает ориентиры для поиска баланса между полезностью и конфиденциальностью данных в сфере управления медданными.