Friday, September 26, 2025

Cómo abordar el proceso estadístico de desidentificación de manera efectiva

La innovación en la atención médica se basa en la capacidad de descubrir qué los datos están tratando de enseñarnos. El análisis de datos, que incluye, entre otros, análisis de datos alimentado por Genai, presenta una demanda insaciable de conjuntos de datos grandes y bien curados y de búsqueda. Este ya es un desafío: tenemos muchos datos, pero no muchos datos buenos. Exacerbar este desafío a la curación de datos a menudo es un mandato legal, político, ético o comercial de que los datos curados también se “desidentificaron”. Para los conjuntos de datos que incluyen información de salud protegida (PHI), la representación de datos no identificados debe realizarse de acuerdo con uno de los dos métodos establecidos en las regulaciones de HIPAA. Y consistentemente, el método que generalmente funciona para el análisis de datos es el método estadístico.

El método estadístico no es nuevo. Y al contrario del mito público, no se considera “menos cumplido” que la alternativa, el llamado método de puerto seguro. Inicialmente, la Oficina de Derechos Civiles, que administra HIPAA, había propuesto solo incluir el método estadístico. Pero la comunidad regulada quería un estándar fácil, enjuague y repetido que no requeriría que obtuvieran una guía estadística en todos los casos, lo que se consideraba una carga transaccional severa. El método de puerto seguro, que requiere la eliminación de 18 campos enumerados, extiende la facilidad administrativa a la comunidad regulada, pero tiene un precio pesado. En muchos casos, los datos restantes después de redactar u ofuscar todos los datos requeridos bajo la desidentificación de puerto seguro ya no son adecuados para su propósito.

La desidentificación estadística es tanto una actividad táctica como estratégica. Hay varios pasos concretos que la comunidad regulada puede tomar para aprovechar al máximo sus iniciativas estadísticas de desidentificación.

  • La motivación importa: Safe Harbour y la desidentificación estadística presentan diferentes oportunidades estratégicas y obstáculos de cumplimiento. La desidentificación del puerto seguro permite que una parte regulada tenga un método relativamente fácil de desidentificación autoadministrante mediante la eliminación de 18 campos enumerados, siempre que ninguno de esos campos sea necesario para la actividad prevista. Es robótico, pero también inflexible. El método estadístico, en contraste, está destinado a proporcionar flexibilidad al observar los riesgos reales y medibles de reidentificación presentados por una variedad de factores, incluidos los datos, pero también el destinatario, la otra información disponible para el destinatario y la política y las salvaguardas contractuales. Requiere un programa de gobernanza para asegurarse de que se sigan los parámetros de la opinión, pero a cambio casi universalmente permite que los datos mayores persistan en el conjunto de datos no identificados.
  • Involucrar al abogado: Si esta es la primera vez que realiza la desidentificación estadística o este ejercicio estadístico es estratégica o materialmente diferente de las opiniones pasadas, el proceso probablemente planteará preguntas legales y de cumplimiento y el asesoramiento legal será importante.
  • Piense en grande primero: El ejercicio estadístico es una buena oportunidad para involucrar a los interesados ​​comerciales para comprender los planes de datos a corto y mediano plazo. Comience pensando en (1) los datos máximos que serían útiles para persistir en el conjunto de datos no identificados; (2) los receptores potenciales del conjunto de datos no identificados y controles razonables en torno a su uso; y (3) el rango de posibles casos de uso y prioridades comerciales. Trabajando con su experto, es posible que deba retirarse de ciertos campos o propósitos de datos, pero al pensar ampliamente desde el principio, puede trabajar de manera más efectiva con su experto.
  • Más que redacción: Al establecer el elemento de diccionario de datos de la opinión, la redacción de datos (la eliminación de ciertos campos) es la herramienta más obvia. Sin embargo, su estadístico puede proporcionar orientación con más matices, tanto en términos de protecciones de privacidad como de retención de la utilidad de datos. Por ejemplo, la aleatorización de datos o el cambio de datos, agregando ruido para dificultar la discernir patrones de reidentificación, incluidos los datos sintéticos, la creación de campos parecidos y una gama de otras técnicas de obfusión de datos. Las técnicas criptográficas para la creación de ID privadas deberán aplicarse cuidadosamente para garantizar que las ID privadas no sean prácticamente reversibles, incluso mediante la elección de claves criptográficas apropiadas. Las técnicas de transformación de datos deben ser adecuadas para su propósito: en algunos casos, ciertas manipulaciones de datos podrían significar que los datos no podrían usarse, por ejemplo, para ciertos fines regulados por la FDA. Pero esto es parte de la discusión estratégica.
  • Más que solo mesas: La desidentificación estadística se puede utilizar para desidentificar los datos no estructurados, incluidos el texto, las notas clínicas e imágenes médicas. La tecnología y las capacidades evolucionan rápidamente, y los datos no estructurados se han movido del nicho y solo selectivamente manejables a una opción escalable en solo unos pocos años. Al considerar los datos máximos en el conjunto de datos no identificado, es importante validar los supuestos sobre lo que prácticamente se puede lograr para garantizar que las opciones no estén restringidas artificialmente.
  • Esté preparado para el comercio de caballos: En muchos casos, una opinión estadística bien diseñada le presentará compensaciones sobre los campos de datos disponibles o la granularidad. Para ilustrar con un ejemplo simple, se pueden permitir los campos de datos relacionados con el origen étnico, pero no en ciertos lugares donde se identificarían altamente debido a la demografía de la población local. En lugar de la opinión que requiere la redacción de la etnia o la ubicación en todos los casos, puede permitir los campos de datos bajo ciertos parámetros pero “grise” la disponibilidad de los campos de datos en otros. Si puede implementar la arquitectura de datos para hacer esto, crea un menú de opciones para su negocio, lo que permite a los destinatarios acceder a ciertos datos dentro de un marco flexible.
  • Opinión como receta: Los datos que persistirán en el conjunto de datos no identificado (generalmente llamado Diccionario de datos) es solo un elemento en la opinión general. La opinión tendrá varios otros ingredientes, todos los cuales importan, y deberá cumplir con todos ellos para que la opinión sea aplicable. Por ejemplo, los estadísticos pueden considerar que la presencia de ciertas cláusulas o políticas contractuales es relevante para medir el riesgo. O, el estadístico puede haber tenido en cuenta el propósito establecido del conjunto de datos no identificado. Así como una receta de pan no sería un pan si optara por renunciar a la levadura o ignorar el agua, debe implementar y cumplir con la opinión en su conjunto.
  • Construir una relación estadística: El ascensor inicial para la opinión es el más grande. Pero la opinión deberá renovarse, generalmente cada 18 meses, aunque los marcos de tiempo varían. Y puede encontrar que los supuestos en la opinión deben revisarse o cambiar. Si su experto estadístico es un socio fuerte, lo ayudará a crecer y adaptar la opinión de acuerdo con sus prioridades estratégicas, incluso entre los períodos de renovación.
  • Construir un cruce de peatones: Una de las ideas integradas en los estándares de desidentificación HIPAA es la necesidad (bajo cualquier método) para actualizar los datos desidentificados con el tiempo. Las instituciones pueden implementar un código de enlace que les permita desidentificar nuevos datos a medida que entra y asociarlos con las personas en el conjunto de datos. Aunque no es necesario para cada propósito, los conjuntos de datos longitudinales desidentificados son esenciales para muchos de los propósitos descritos anteriormente. Las tecnologías de tokenización y vinculación también se pueden aplicar al enlace entre conjuntos de datos discretos sin compartir elementos PHI o identificar, aunque es importante garantizar que el conjunto de datos vinculado resultante cumpla con los estándares de desidentificación de HIPAA.
  • Data Puddle o Data Lake: En algunos casos, los datos que necesita para desidentificar es discretos y se generarán caso por caso, aplicando los parámetros de la opinión. En otros casos, su empresa puede presentar una gama de casos de uso de datos futuros, no especificados y/o variados. En el último caso, es posible que desee desarrollar un lago de datos, un conjunto de datos grande y curado en reposo que esté disponible para aprovisionar recortes de datos más pequeños para proyectos particulares. Una opinión bien diseñada es igualmente aplicable para todo y subconjuntos.
  • Desidentificación versus agregación de datos: La agregación de datos es un término de arte bajo HIPAA que implica el uso de PHI de múltiples entidades cubiertas para la evaluación comparativa y otras actividades conjuntas. La comunidad regulada a menudo usa indistintamente “no identificada” y “agregada”, pero no lo son. Asegúrese de que lo que necesita se desiden los datos para un proyecto en particular.
  • Invierta en el etiquetado de datos: El etiquetado de datos permitirá que su organización tenga más destreza en los datos que considera disponibles para la desidentificación y proporcionará granularidad a nivel de campo. Es un trabajo operativo y administrativo técnico que podría no parecer glamoroso, pero es un componente esencial de conjuntos de datos lucrativos.
  • Papel de ai: Es imposible decir algo sobre un tema de atención médica o datos en este momento sin hablar de la IA. Así que solo diremos esto: la IA es una carga y un regalo en la desidentificación. Las herramientas de IA pueden ayudar a desidenciar datos no estructurados (notoriamente difíciles) y pueden acelerar las herramientas de desidentificación y el análisis del conjunto de datos. La IA también se puede usar para verificar dos supuestos estadísticos sobre el riesgo residual. Pero las herramientas de IA también pueden cambiar potencialmente el cálculo de riesgo de reidentificación si las herramientas de IA pueden interrogar datos e identificar patrones apalancados para la reidentificación de nuevas maneras.

A medida que crecen las demandas de datos, la desidentificación es una gobernanza esencial y una prioridad estratégica para las partes interesadas en la economía de datos digitales. Los proyectos de desidentificación permiten a los ingenieros, líderes empresariales, líderes de cumplimiento y abogados trabajar juntos en colaboración y crear una conversación sobre la gobernanza de datos que paga dividendos más allá del conjunto de datos en sí.

Foto: Weiquan Lin, Getty Images


Jordan Collins es un líder estratégico orientado a resultados con más de 20 años de experiencia en funciones analíticas centradas en permitir decisiones basadas en datos a nivel empresarial. Actualmente es el gerente general de Análisis de privacidaduna empresa IQVIA. Privacy Analytics permite a las organizaciones desatar el valor de los datos confidenciales para fines secundarios al tiempo que gestiona las consideraciones de privacidad. Jordan tiene un doctorado en filosofía de la Universidad de Auckland, una maestría en estadísticas aplicadas de la Universidad de York, una maestría en Matemáticas Pure de la Universidad McMaster y una licenciatura en matemáticas de BSC (Hon.) De la Universidad Mount Allison. Jordan tiene una sólida experiencia en análisis, comenzando su carrera como estadística. Tiene una experiencia de consultoría profunda con una inclinación empresarial, habiendo resistido su propia práctica de consultoría estadística centrándose en aplicaciones estadísticas en la atención médica, así como la optimización de procesos industriales y comerciales. Durante los últimos 10 años ha aplicado estas habilidades analíticas a los desafíos de privacidad técnica a nivel mundial.

Jennifer Getter es socio en McDermott Will y SchulteOficina de DC. Con una práctica centrada principalmente en el desarrollo, la entrega e implementación de soluciones de salud digital, datos e investigación, Jennifer trabaja en estrecha colaboración con los adoptantes y desarrolladores para llevar sus innovadoras soluciones de salud a pacientes y proveedores. Para diseñar e implementar tecnologías de salud digitales de manera efectiva, Jenn ofrece una valiosa orientación sobre temas clave, como la incorporación del paciente, la implementación del proveedor, la privacidad y los problemas regulatorios. Ella asesora a clientes globales de ciencias de la vida, atención médica e informática sobre temas legales que acompañan a la salud digital, la innovación biomédica, el cumplimiento de la investigación, las leyes globales de seguridad y seguridad de datos y la gestión de relaciones financieras.

Esta publicación aparece a través del Influenciadores de Medcity programa. Cualquiera puede publicar su perspectiva sobre los negocios y la innovación en la atención médica en Medcity News a través de personas influyentes de Medcity. Haga clic aquí para averiguar cómo.

Related Articles

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Latest Articles