La colección de datos disponibles sobre las características de poblaciones y pacientes, sobre su exposición a los servicios de salud o a las políticas sanitarias, y sobre las consecuencias de dicha exposición, ha crecido en los últimos años de un modo formidable.
Su potencial para la investigación en servicios sanitarios y políticas es incuestionable; en su vertiente más reconocible permite analizar la adecuación de uso de tecnologías y servicios, o analizar el desempeño de los proveedores sanitarios; en su lado más innovador, analizar las trayectorias clínicas seguidas por los pacientes, evaluar comparativamente la efectividad y la seguridad de las intervenciones sanitarias en condiciones reales, o predecir la utilización futura o la probabilidad de un determinado resultado sanitario.
Sin embargo, su utilización en investigación en servicios y políticas sanitarias es todavía limitada, en parte por problemas de acceso a los datos, en parte por las dificultades metodológicas y tecnológicas que impone la utilización de datos masivos y dinámicos.
Resueltos los problemas de acceso y capacidad computacional, la utilización de datos de vida real tendrá otras limitaciones que deben ser conocidas y tratadas por los investigadores; por ejemplo, siempre deberemos preguntarnos por la veracidad de los datos (datos incompletos, datos inexistentes, datos heterogéneos, datos fraudulentos); las limitaciones propias de un estudio observacional (especialmente, los riesgos del fenómeno de confusión y los sesgos de selección); y las maldiciones propias del uso de datos masivos (dimensionalidad, correlaciones espurias o sobreajuste).