Dominio y tarea
Trabajo relacionado
3.1. Panorama general de la investigación en minería de texto y PNL
3.2. Minería de texto y PNL en el uso industrial
3.3. Minería de textos y procesamiento del lenguaje natural para la contratación pública
4.4 Detección de artículos del lote
4.6. Análisis de XML, unión de datos y desarrollo de índices de riesgo
Experimento y demostración
Discusión
6.1. El enfoque "industrial" del proyecto
6.2. Heterogeneidad de los datos, naturaleza multilingüe y multitarea
Este trabajo se centra en las adquisiciones sanitarias, que rara vez se han estudiado en la literatura. El objetivo principal del proyecto es desarrollar una plataforma que permita la creación dinámica de un "perfil de riesgo del proveedor" para cada proveedor de atención sanitaria. Prevemos que dicho perfil consista en diferentes "índices" que evalúen diferentes perspectivas (por ejemplo, capacidad para suministrar ciertos productos, cobertura geográfica) de los "riesgos" para que los compradores potenciales firmen contratos con el proveedor. Esto permitiría responder fácilmente a preguntas como "¿quiénes son los proveedores capaces de suministrar este tipo de medicamento?", "¿en qué medida son capaces de suministrar para este país?" o "¿son capaces de suministrar tal cantidad?". Estas preguntas suelen ser cruciales para la toma de decisiones del comprador. Sin embargo, el proceso de adquisición actual se basa en la selección manual de múltiples documentos extensos para buscar respuestas. Este es un proceso que consume muchos recursos. Es comprensible que un facilitador de nuestro objetivo principal sea una base de datos estructurada de datos históricos de contratos de proveedores de atención sanitaria. Por lo tanto, el objetivo secundario del proyecto es desarrollar una base de datos de este tipo y completarla con datos históricos de adquisiciones sanitarias. Si bien los datos sobre adquisiciones públicas están ampliamente disponibles, como explicaremos a continuación, existe una combinación de datos multilingües estructurados, semiestructurados y no estructurados que deben analizarse y vincularse. Por lo tanto, una parte importante del trabajo del proyecto consiste en desarrollar soluciones de minería de texto y procesamiento del lenguaje natural que procesen automáticamente grandes cantidades de datos de adquisiciones no estructurados para extraer información que se pueda utilizar para completar la base de datos. Por lo tanto, el objetivo de este artículo es informar sobre el desarrollo de estos métodos de minería de texto y procesamiento del lenguaje natural.
El proyecto se centra en los datos de contratación pública de la plataforma 'Tenders Electronic Daily' (TED), que utilizan los gobiernos de la UE para publicar sus proyectos relacionados con la contratación pública. TED publica más de 460.000 licitaciones y adjudicaciones de contratos en 26 idiomas oficiales europeos al año, por un valor de unos 420.000 millones de euros. Cada licitación puede dividirse en varios 'lotes', donde un lote es la unidad contractual más pequeña. Cada lote puede contener varios elementos necesarios. A modo de ejemplo, el anuncio de licitación '2019/S 180-437985'[1] enumera 47 lotes de una licitación del NHS (Reino Unido), con tamaños que van desde 2 a más de 30 elementos. Si una licitación obtiene ofertas exitosas, se realizará una 'adjudicación de contrato' (o múltiples adjudicaciones) y se registrará en TED para la licitación. En lo que sigue, para facilitar la explicación, suponemos que hay una adjudicación para cada licitación (sin embargo, en la práctica, nuestros métodos se aplican a todas las adjudicaciones que están disponibles para una licitación). Obsérvese que los lotes ofrecidos en una licitación y las adjudicaciones de contratos forman una relación de "muchos a muchos". Es decir, se pueden adjudicar varios lotes a una sola entidad y documentarlos en una adjudicación de contrato; un solo lote también se puede adjudicar a varias entidades, formando múltiples adjudicaciones de contratos; además, una sola adjudicación de contrato puede incluir uno o varios lotes.
En TED, cada licitación y su correspondiente adjudicación de contrato tiene un archivo XML estructurado que documenta los elementos clave de información. Nos referimos a estos como "XML de licitación" y "XML de adjudicación". En la Figura 1 se muestra un ejemplo de un XML de licitación. Los XML de adjudicación generalmente siguen la misma estructura. Los XML de licitación documentan información como el comprador, los lotes, los elementos de los lotes, los criterios del contrato, etc. Los XML de adjudicación documentan el comprador, los lotes, los proveedores adjudicados para cada lote, el valor del contrato, la cantidad, etc. Cada licitación también puede tener una colección de "documentos adjuntos" que brindan más detalles de la licitación, especialmente sobre lotes y elementos ("archivos adjuntos de licitación").
Dada la disponibilidad de los XML de licitaciones y adjudicaciones, se puede considerar que la tarea de desarrollar y completar la base de datos es fácil. Sin embargo, los datos en realidad son mucho más complicados. En primer lugar, los XML de licitaciones y adjudicaciones suelen estar incompletos. La información que falta predominantemente es la información sobre lotes y artículos. A modo de ejemplo, el XML de licitación para '2019/S 180-437985' menciona 47 lotes en la licitación, sin detallar los artículos específicos, pero sí un número de referencia de lote. Esta información fundamental está disponible a partir de una descarga masiva de 7 archivos adjuntos de licitación (PDF). A continuación, tanto los XML de licitación como los de adjudicación hacen una referencia cruzada de estas fuentes de datos mediante el uso de las referencias de lotes. Recuperar dicha información es crucial para crear el perfil de riesgo del proveedor, que debe tener en cuenta la gama y la cantidad de productos que un proveedor ha suministrado en el pasado. En segundo lugar, no todos los archivos adjuntos de licitación son relevantes para nuestro objetivo. Entre los de '2019/S 180-437985', dos PDF enumeran los lotes y artículos reales (por ejemplo, Figura 2), mientras que otros documentan especificaciones, requisitos, regulaciones y protocolos, etc. En tercer lugar, no todas las páginas de un anexo relevante contienen información relevante. Por ejemplo, la Figura 3 muestra que en otra licitación, los lotes y artículos se describen en una página pero en diferentes secciones de un documento largo. En cuarto lugar, como ya se muestra en las Figuras 2 y 3, existe una discrepancia significativa en cómo se describe la información de lotes y artículos dentro del mismo país, o de hecho, incluso la misma organización. Esta discrepancia se ha observado en diferentes niveles, como: el uso de formato estructurado (por ejemplo, texto libre frente a tablas/listas); la cantidad de información codificada (por ejemplo, la tabla de la Figura 2 enumera 16 columnas (atributos) para cada artículo) incluso para los mismos tipos de productos/servicios; y la semántica de la estructura donde se adoptan estructuras (por ejemplo, el orden y los nombres de las columnas). Un nivel tan alto de complejidad e inconsistencia podría ser una de las principales razones por las que ha habido una falta de estudios o aplicaciones de minería de texto y PNL para la adquisición de servicios de atención médica.
Autores:
(1) Ziqi Zhang*, Escuela de Información, Universidad de Sheffield, Regent Court, Sheffield, UKS1 4DP ([email protected]);
(2) Tomas Jasaitis, Vamstar Ltd., Londres ([email protected]);
(3) Richard Freeman, Vamstar Ltd., Londres ([email protected]);
(4) Rowida Alfrjani, Escuela de Información, Universidad de Sheffield, Regent Court, Sheffield, UKS1 4DP ([email protected]);
(5) Adam Funk, Escuela de Información, Universidad de Sheffield, Regent Court, Sheffield, UKS1 4DP ([email protected]).
Este documento es
[1] https://ted.europa.eu/udl?uri=TED:NOTICE:437985-2019:TEXT:EN:HTML, último acceso: noviembre de 2022