Masketeer: An Ensemble-Based Pseudonymization Tool with Entity Recognition for German Unstructured Medical Free Text

Titel in Übersetzung: Masketeer: Ein Ensemble-basiertes Pseudonymisierungswerkzeug mit Entitätenerkennung für deutsche unstrukturierte medizinische Freitexte

Publikation: Beitrag in FachzeitschriftArtikelBegutachtung

Abstract

Background: The recent rise of large language models has triggered renewed interest in medical free text data, which holds critical information about patients and diseases. However, medical free text is also highly sensitive. Therefore, de-identification is typically required but is complicated since medical free text is mostly unstructured. With the Masketeer algorithm, we present an effective tool to de-identify German medical text. Methods: We used an ensemble of different masking classes to remove references to identifiable data from over 35,000 clinical notes in accordance with the HIPAA Safe Harbor Guidelines. To retain additional context for readers, we implemented an entity recognition scheme and corpus-wide pseudonymization. Results: The algorithm performed with a sensitivity of 0.943 and specificity of 0.933. Further performance analyses showed linear runtime complexity (O(n)) with both increasing text length and corpus size. Conclusions: In the future, large language models will likely be able to de-identify medical free text more effectively and thoroughly than handcrafted rules. However, such gold-standard de-identification tools based onlarge language models are yet to emerge. In the current absence of such, we hope to provide bestpractices for a robust rule-based algorithm designed with expert domain knowledge.
Titel in ÜbersetzungMasketeer: Ein Ensemble-basiertes Pseudonymisierungswerkzeug mit Entitätenerkennung für deutsche unstrukturierte medizinische Freitexte
OriginalspracheEnglisch
Aufsatznummer281
Seiten (von - bis)1-16
Seitenumfang16
FachzeitschriftFuture Internet
Volume16
Issue8
DOIs
PublikationsstatusVeröffentlicht - 6 Aug. 2024

Research Field

  • Exploration of Digital Health

Fingerprint

Untersuchen Sie die Forschungsthemen von „Masketeer: Ein Ensemble-basiertes Pseudonymisierungswerkzeug mit Entitätenerkennung für deutsche unstrukturierte medizinische Freitexte“. Zusammen bilden sie einen einzigartigen Fingerprint.

Diese Publikation zitieren