Joueb.com
Envie de créer un weblog ?
ViaBloga
Le nec plus ultra pour créer un site web.
Débarrassez vous de cette publicité : participez ! :O)

Le Master IDEMM

Un outil pour les étudiants du Master IDEMM de Lille 3

Page principale

L’évaluation des systèmes de recherche d’informations

--> HEDIN Séverine, HOESTLANDT Marion, LENOUVEL Solenne et VERRAEST Sorraya

 

Introduction

 

 

La recherche d’informations est aujourd’hui une activité d’autant plus importante qu’elle s’inscrit dans un contexte où les nouvelles technologies de l’information et de la communication évoluent rapidement. Il faut pouvoir, parmi l’abondance de documents disponibles, trouver l’information correspondant à nos besoins en un minimum de temps.

Des logiciels de traitement de l’information permettent de retrouver des informations dans des corpus important de documents. Se posent alors plusieurs questions au sujet de ces systèmes de recherche d’informations, notamment au niveau de leur efficacité : pertinence, exhaustivité, ergonomie,… Des campagnes d’évaluation ont donc été mises en place depuis les années soixante pour juger de l’efficacité de ces systèmes et ainsi faire évoluer la performance de ces mêmes systèmes, technologiquement mais également par rapport aux attentes des utilisateurs.

 

Nous nous intéresserons ici aux systèmes de recherche d’informations textuelles sur des corpus finis de documents. Dans le domaine de l’évaluation de ces systèmes, il existe actuellement deux approches bien distinctes l’une de l’autre.

La première repose sur la performance des systèmes en eux-mêmes, c'est-à-dire une approche quantitative des systèmes de recherche d’informations qui s’appuie sur les travaux réalisés dans les années soixante à Cranfield (Royaume-Uni) sur les systèmes d’indexation. A cette époque, les tests de Cranfield I permettent d’établir la première base d’évaluation dans laquelle on trouvait un corpus de 18 000 documents, 1200 questions et une indication de la pertinence de chaque document en fonction des questions. Suivi quelques années plus tard par le projet MEDLARS (Medical Literature Analysis and Retrieval System), réalisé à la bibliothèque nationale de médecine aux Etats-Unis, ces deux projets ont permis de développer des méthodologies permettant l’évaluation des systèmes de recherche d’informations et d’établir des critères de performance tels que le rappel et la précision.

Cette approche, connue sous le nom de paradigme système, est le modèle actuel dominant. En effet, c’est sur cette première expérience que s’est basée le NIST (National Institute of Science and Technology) pour créer la campagne d’évaluation TREC (Text REtrieval Conference) en 1992. Les campagnes de TREC sont devenues la référence en ce qui concerne l’évaluation des systèmes mais on peut également citer les campagnes CLEF (Cross-Language Evaluation Forum) qui se rattachent plus particulièrement aux systèmes multilingues, les campagnes NTCIR sur les langues asiatiques et Amaryllis, spécialisé sur les systèmes français.

La deuxième approche de l’évaluation des systèmes de recherche d’informations s’attache plus particulièrement à la place de l’utilisateur face à ces systèmes. Elle est appelée paradigme usager et consiste à évaluer un système, non sur ses performances techniques mais en fonction de la satisfaction qu’en retire l’usager.

 

Cette étude va donc s’articuler autour de ces deux paradigmes. Dans un premier temps, nous étudierons les campagnes d’évaluation TREC et CLEF, en présentant deux pistes spécifiques de ces campagnes : la piste ad hoc et la piste question-réponse ainsi que les limites et problèmes ce ces approches " système ". Nous étudierons ensuite les travaux menés à l’heure actuelle sur les campagnes d’évaluation et qui tentent de placer l’usager au cœur de la réflexion et dès lors de proposer de nouvelles méthodologies d’évaluation.

 

 

1. Présentation des campagnes d’évaluation des systèmes de recherche d’informations

Les objectifs de ces campagnes d’évaluation sont les suivants : encourager la RI sur de grandes collections fermées, développer la communication entre l’industrie, l’académie et le gouvernement en mettant en place un forum ouvert pour faciliter les échanges d’idées sur la recherche, augmenter la vitesse de transfert de la technologie du laboratoire de recherche aux enseignes commerciales, rendre disponible et accessible des techniques d’évaluations appropriées pour les industriels et les académiciens.

 

1.1. La campagne d’évaluation TREC

Le TREC, né des expérimentations du programme Cranfield en 1957, est une série d’évaluations annuelles des technologies pour la recherche d’informations. Le TREC est un projet international initié au tout début des années 90 par le NIST (qui a pour mission générale de développer la science et les techniques, et dépend du ministère du commerce américain) aux Etats-Unis, dans le but de proposer des moyens homogènes d'évaluation de systèmes documentaires sur des bases de documents conséquentes. Il est aujourd'hui co-sponsorisé par le NIST et l’ARPA (ex-DARPA/ITO, pour Defense Advanced Research Projects Agency - Information Technology Office, qui mène plusieurs actions dans le domaine des technologies de l'informatique et de la communication, et qui dépend du ministère de la défense).

 

Les principes théoriques du TREC sont issus de l’ouvrage Introduction to Modern Information Retrieval, écrit par Gerard Salton et Michael , en 1983, sur la formalisation de l'évaluation de la recherche d'informations.

Les participants sont en général des chercheurs pour de grosses compagnies (AT&T, BBN/GTE, GE, Harris, IBM, IIT, Lexis-Nexis, CLARITECH, , C. Imperial Bank of Commerce, Fujitsu, NEC, NTT DATA) commercialisant des systèmes et voulant les améliorer, de petits vendeurs spécialisés dans la recherche d’informations ou des groupes de recherche universitaire.

Les conditions de participation sont les suivantes : le NIST diffuse courant décembre un appel à participation qui explique dans les grandes lignes les objectifs et le déroulement du projet pour l'année à venir. Les demandes de participation doivent être déposées en janvier, aussi bien pour les anciens participants que pour les nouveaux. Les demandes d'intégration à TREC sont étudiées par un Comité de Programme qui se prononce en février. La participation à la conférence annuelle elle-même est soumise à l'envoi au NIST de résultats (de la tâche principale et/ou d’une des tâches spécifiques).

 

Donna Harman, manager de Information Access and User Interfaces Division, a reçu le prix Tony Kent Strix à Londres le 15 Septembre 1999. Ce prix est décerné annuellement par l’Institut britannique des Scientifiques de l’Information en reconnaissance de l’apport d’une pratique innovatrice dans le champ de la recherche d’informations. Donna Harman fut remerciée d’avoir piloté et inspiré toute la série d’ateliers du TREC, considéré comme le développement le plus important dans la recherche d’informations expérimentale depuis les tests de Cranfield. Le programme du TREC a donc eu un impact très important dans le domaine, et demeure le plus cité et utilisé par la communauté de recherche d’informations.

Les pistes principales explorées sont le filtrage, la recherche (ou tâche ad hoc), l’interrogation interlingue et le question-réponse.

Nombre de participants par piste et nombre total de participants à chaque TREC :

      

TREC

     

Track

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

Ad Hoc

18

24

26

23

28

31

42

41

__

__

__

Routing

16

25

25

15

16

21

__

__

__

__

__

Interactive

__

__

3

11

2

9

8

7

6

6

6

Spanish

__

__

4

10

7

__

__

__

__

__

__

Confusion

__

__

__

4

5

__

__

__

__

__

__

Database Merging

__

__

__

3

3

__

__

__

__

__

__

Filtering

__

__

__

4

7

10

12

14

15

19

21

Chinese

__

__

__

__

9

12

__

__

__

__

__

NLP

__

__

__

__

4

2

__

__

__

__

__

Speech

__

__

__

__

__

13

10

10

3

__

__

Croos-Language

__

__

__

__

__

13

9

13

16

10

9

High Precision

__

__

__

__

__

5

4

__

__

__

__

Very Large Corpus

__

__

__

__

__

__

7

6

__

__

__

Query

__

__

__

__

__

__

2

5

6

__

__

Question Answering

__

__

__

__

__

__

__

20

28

36

34

Web

__

__

__

__

__

__

__

17

23

30

23

Video

__

__

__

__

__

__

__

__

__

12

19

Novelty

__

__

__

__

__

__

__

__

__

__

13

Total participants

22

31

33

36

38

51

56

66

69

87

93

VOORHEES, Ellen M. Overview of TREC 2002. In CHAUDIRON, Stéphane (dir.). L’évaluation des systèmes de traitement de l’information. Paris : Hermès, 2004.

 

1.1.1. La tâche ad hoc

1) Historique et objectifs

L’objectif de cette tâche est d’évaluer les performances des systèmes de recherche d'informations recherchant la réponse à des questions, sans cesse renouvelées, dans un fonds de documents textuels, qui, lui, reste statique puisqu’il s’agit d’une collection fermée. Cette tâche se rapproche de la façon dont les chercheurs utilisent les bibliothèques où la collection est connue mais les questions susceptibles d'être posées ne le sont pas. La piste ad hoc est le premier mécanisme sur lequel se sont construits les corpus de documents du TREC. Le fonds documentaire s’est enrichi chaque année, de 1992 à 1999 (TREC 1 à 8), alors que la tâche ad hoc était la principale piste de recherche du TREC. Abandonnée en 1999, la tâche ad hoc revient en 2003 au cœur des pistes Robust, Web and Genomic Retrieval.

La tâche ad hoc du TREC, surtout lorsque la requête est courte (2 ou 3 mots), ressemble beaucoup à la recherche d’informations sur le web. Mais les documents ne sont précisément pas des pages Web et nous restons dans une collection fermée.

 

2) Le corpus de documents

En 1999, dernière année de la tâche ad hoc, le corpus de documents est composé en majeure partie d’articles de presse concernant l’actualité dans tous les domaines : périodiques, quotidiens, dépêches de presse (Financial Times, San Jose Mercury News, Wall Street Journal, Ziff-Davies publications, Associated Press Newswire, Foreign Broadcast Information Service, Los Angeles Times, etc.) et de textes juridiques ou documents officiels : brevets du US Patents and Trademark Office, textes réglementaires issus du Federal Register, littérature du Department of Energy, procès-verbaux des séances du Congrès, Congressional Report (Federal Register).

Ces documents sont sélectionnés selon deux critères : leur accessibilité (presse) et leur diversité (styles d’écriture, vocabulaire utilisé, longueur des textes, etc.). Chaque document a un identifiant numérique appelé le DOCNO. Le corpus du TREC comporte aujourd’hui plus de 5 millions de documents textuels, d’un total de plus de 5 gigaoctets de données. L’avantage de ce corpus de documents est qu’il est constitué de ressources fiables, contrairement au Web.

 

3) Les référentiels

Les référentiels de réponses justes sont constitués par recoupement des 100 premières réponses des participants (pooling method). Pour chaque requête, tous les documents potentiellement pertinents sont rassemblés dans une sorte de " corbeille ", en prenant les 100 premiers documents du classement de chaque participant. L’expert humain ayant soumis la requête aux participants contrôle la pertinence de chaque document. Les documents restant en dehors de la " corbeille " ne sont pas examinés.

 

4) Les topics

Cette tâche ad hoc doit permettre de répondre au plus grand nombre de questions possible en un temps réduit, tout en séparant le topic (les thèmes ou questions, élaborés par des experts) de la requête (texte en langue naturelle), et d’augmenter la quantité d’informations disponible pour chaque question posée. Chaque topic est constitué de 4 informations : un identifiant numérique, un titre, une description et un résumé succinct du contenu ou partie narrative.

 

TREC

<num> Number: 409

<title> legal, Pan Am, 103

<desc> Description:

What legal actions have resulted from the destruction of Pan Am Flight 103 over Lockerbie, Scotland, on December 21, 1988?

<narr> Narrative:

Documents describing any charges, claims, or fines presented to or imposed by any court or tribunal are relevant, but documents that discuss charges made in diplomatic jousting are not relevant. 

Topic Statement 

 

 

5) Fonctionnement

Pour cette tâche, chaque participant est donc équipé:

d’un corpus de documents,

d’un corpus de requêtes,

d’un corpus de jugements indiquant que tel document est pertinent pour telle requête,

d’un système de recherche d’informations pour indexer les corpus et traiter les requêtes, et d’un logiciel d’évaluation.

 

Les participants du TREC disposent d’une collection de 500,000 à 700,000 documents, d’environ 2 gigaoctets de texte, sur un Cd-rom fourni par le NIST. C’est à eux d’en faire l’indexation en utilisant leur propre matériel. Avec ces documents, le NIST procure également aux participants un ensemble de 50 questions en langage naturel posées par des usagers (en fait des utilisateurs " de substitution ", qu’on appelle souvent " assessors ", c.a.d. examinateurs, leur rôle étant de juger si les documents retrouvés par les différents systèmes sont pertinents ou non par rapport à la requête). Les participants classent les documents de la collection par ordre de pertinence, pour chaque requête, en utilisant leur système, manuellement ou automatiquement ; et les 1000 premiers documents que leur système a extrait pour chaque requête sont soumis au NIST, chargé de l’évaluation, qui utilise comme principales métriques les taux de rappel et de précision, exprimés en pourcentages (pour le taux de rappel, le nombre de documents pertinents extraits est divisé par le nombre total de documents pertinents; pour le taux de précision, le nombre de documents pertinents extraits et jugés comme tels est divisé par le nombre total de documents pertinents extraits).

Les examinateurs font une estimation de la pertinence des 100 ou 200 premiers documents de chaque système, et attribuent à chacun différents scores d’évaluation (par exemple, la moyenne du taux de précision, le taux de précision des 10, 20 ou 30 premiers documents, etc.).

 

6) Quelques résultats

Les participants ont donc développé aux cours de ces campagnes d’évaluation plusieurs algorithmes pour la tâche ad hoc. Une analyse des algorithmes les plus performants utilisés pour la piste ad hoc montre que les meilleurs d’entre eux ont deux points en commun :

la plupart des participants utilisent la méthode moderne de " la pesée " ou " poids " des mots (term weighting method) développée dans les systèmes Okapi ou SMART. Un terme qui " pèse lourd " est un terme qui revient souvent. Pour évaluer son " poids ", les participants effectuent des calculs entre la fréquence à laquelle le terme revient dans le texte de chaque document, le nombre total de documents dans le corpus, et le nombre de documents contenant le terme en question.

beaucoup d’entre eux ont une approche extensive de la requête, en lançant la recherche à deux reprises. Dans cette approche, une première recherche d’environ 10 à 20 documents liés à la requête est lancée ; puis de nouveaux mots ou phrases tirés de ces documents sont ajoutés à la requête selon leur pertinence. La recherche est ensuite relancée une seconde fois pour le classement final, à partir de cette requête élargie.

 

Cette piste de recherche qu’est la tâche ad hoc a soulevé plusieurs questions : Vaut-il mieux indexer manuellement ou automatiquement les documents ? Doit-on utiliser le langage naturel ou contrôler le vocabulaire ? Quelle syntaxe pour la requête ? Où poser les limites du corpus de documents ? Est-ce que tout est une affaire de jugement subjectif ? Quelle est la méthode la plus efficace et comment le savoir ? Comment le système guide l’usager dans la formulation de sa requête ? Comment intégrer au mieux un système de recherche d’informations dans l’environnement de travail de l’utilisateur final ?

 

1.1.2. La tâche Question-Réponse

1) Historique et objectifs

Un système de question-réponse permet, comme son nom l’indique, de donner une réponse suite à une requête d’un utilisateur du système. Un tel système doit donc pouvoir faire la différence entre les différentes formes de requêtes (requête booléenne, langage naturel, langage spécialisé,…).

 

Afin de permettre l’évaluation de la performance de tels systèmes, la campagne TREC introduit donc la tâche question-réponse à partir de 1999. L’objectif principal de cette tâche est ainsi d’encourager la recherche pour améliorer les réponses des systèmes de recherche d’informations, à savoir renvoyer des réponses factuelles extraites de documents plutôt qu’une liste de documents.

L’évaluation d’un système de question-réponse devrait ainsi pouvoir idéalement mesurer la justesse de la réponse, la concision et la complétude, la pertinence de la réponse, l’interaction avec l’utilisateur, le temps de réponse et la facilité d’utilisation du système.

Depuis sa création en 1999, la tâche question-réponse a évolué puisqu’à l’époque, TREC 8 proposait deux cents questions. Il s’agissait alors d’évaluer les réponses qui devaient correspondre à cinq extraits de 50 ou 250 caractères tirés d’un corpus de 528 000 documents. En 2003, TREC 12 a introduit des questions de définition.

Nous nous attacherons ici plus particulièrement à TREC 11 qui date de 2002 puisque c’est à propos de celui-ci que nous avons le plus d’informations. La piste question-réponse portait sur deux tâches différentes : des réponses précises et courtes et une liste de réponses.

 

2) Le corpus

La collection de documents sur laquelle portait TREC 11 était le corpus AQUAINT, un corpus composé d’articles de presse rédigés en anglais. Ces articles provenaient de trois sources différentes :

- du Associated Press de 1998 à 2000

- du New York Times de 1998 à 2000

- la partie anglaise du Xinhua News Agency de 1996 à 2000

Cela représente environ 1 033 000 documents, c'est-à-dire 3 gigaoctets de texte.

 

3) Fonctionnement

Réponses précises et courtes :

Comme les années précédentes, les participants ont reçu un corpus de requêtes pour lesquelles les systèmes devaient renvoyer une réponse pour chaque question. La principale différence avec les années précédentes était que les systèmes devaient renvoyer une seule réponse par question, la plus précise possible puisque les extraits contenants la réponse n’étaient pas autorisés.

Au cours de cette tâche, cinq cents questions tirées de MSNSearch et ont été posées aux participants. Le NIST a corrigé l’orthographe, la ponctuation et parfois la grammaire de certaines des questions sélectionnées mais le contenu n’a en rien été modifié. Parce qu’il était impossible de déterminer le type de réponse attendue à une demande de définition (ex : Who is Colin Powell ? What are steroids ?) quand il n’y avait pas d’utilisateur cible précis, ce genre de questions n’a pas été sélectionné.

 

Les systèmes devaient répondre exactement une réponse par question. Lors de la présentation des résultats, les questions devaient être ordonnées en fonction de la confiance que les systèmes leur trouvaient. En d’autres termes, plus un système a de la confiance dans une réponse, plus la question correspondante sera à un rang élevé dans la liste des questions.

Pour mesurer cette confiance, on utilise la formule suivante :

Q

CWS = 1/Q × ∑ [(Nombre de réponses correctes au rang i) × 1/i]

i

 

Q représente le nombre total de questions c'est-à-dire ici, 500

i représente le rang dans la liste finale

 

Contrairement à la tâche ad hoc, la tâche question-réponse ne dispose pas de corpus de référence. L’évaluation des réponses est humaine, elle est jugée par un assesseur du NIST. Ces assesseurs jugent chaque réponse en assignant pour chacune d’entre elles un adjectif :

- incorrecte : la réponse est fausse ou elle n’est pas assez précise (c'est-à-dire trouver 20 au lieu de $20) ;

- non-prouvée : la réponse contient une solution mais le document retourné ne prouve pas cette solution ;

- non-exacte : la réponse contient une solution et le document prouve cette solution mais la réponse est trop longue ou il manque un morceau de la réponse ;

- correcte : la réponse est correcte, c'est-à-dire, courte et précise.

Seules les réponses correctes sont comptabilisées pour l’évaluation. La réponse " nul " était retournée lorsque le système ne trouvait pas la réponse dans le corpus. Elle est également comptabilisée comme correcte lorsque aucune réponse n’existe dans le corpus de documents.

 

Trente-quatre groupes différents ont participé à cette tâche. Les cinq cents questions ont été divisées en plusieurs jeux de questions différents. Chaque jeu de question a ensuite été classé en fonction du nombre de réponses correctes obtenues et la confiance qu’il lui été donnée.

Cette méthode pour mesurer la confiance permet de favoriser les systèmes qui classaient bien leurs réponses. En revanche, les systèmes qui présentaient une réponse incorrecte assez tôt dans le classement étaient pénalisés.

De plus, il peut exister des désaccords entre les juges au sujet de la validité d’une réponse.

 

Liste de réponses

Pour chaque question, les systèmes devaient renvoyer une liste de réponses. Par exemple une des questions était : Donner une liste de 9 variétés de pommes de terre douces.

Les questions ont été établies par les assesseurs du NIST. Le nombre d’exemples demandé a été choisi en fonction du nombre total de réponses disponibles dans le corpus. Un seul document pouvait contenir plusieurs réponses et une même réponse pouvait apparaître dans plusieurs documents.

 

Chaque liste de réponses était considérée comme une unité. Un seul exemple comme réponse était jugé comme précédemment par les juges, c'est-à-dire selon la piste réponses courtes et précises. Pour les listes de réponses, un assesseur choisissait arbitrairement n’importe quel exemple d’un ensemble de réponses correctes et équivalentes pour en faire une seule réponse distincte et éliminait les autres.

Le score d’une question-liste était alors calculé en divisant le nombre de réponses correctes distinctes trouvées par le nombre de réponses demandées. Le score d’un système était donc la moyenne des résultats trouvés pour chaque question.

 

Ainsi la piste Question-Réponse permet d’évaluer les réponses des questions factuelles, l’extraction de la réponse uniquement et la recherche de toutes les réponses dans un corpus mais il serait plus intéressant de pouvoir évaluer les réponses en fonction de leur fiabilité et de leur utilité pour l’utilisateur.

1.2. La campagne d’évaluation CLEF (Cross Language Evaluation
Forum)

En 2000 est lancé le projet européen d’évaluation des systèmes de recherche d’information qu’ils soient monolingue ou multilingue de langue européenne ; ce projet est baptisé CLEF. Il intègre aujourd’hui Amaryllis, la campagne d’évaluation des systèmes de recherche textuelle pour la langue français. La première campagne d’Amaryllis date de 1996 et fut initiée par l’Agence Universitaire de la Francophonie (AUF) et le Ministère Français de la Recherche et de la Technologie.

 

CLEF distingue deux types de tâches :

les tâches principales, à savoir les pistes monolingue, bilingue, multilingue et de recherche dans un domaine spécifique;

les tâches additionnelles, organisées à titre d’expérimentation dont le but est d’identifier les nouveaux besoins et les nouvelles exigences ainsi qu’acquérir de nouvelles méthodes pour l’évaluation des SRI mono- ou multilingues.

 

Lors de la quatrième campagne (CLEF 2003), deux nouvelles tâches sont introduites qui remportent un vif succès : la piste question/réponse et la piste recherche d’images. CLEF 2003 constitue donc un point de rupture avec les campagnes précédentes car il ne s’agit pas seulement de rechercher des documents multilingues mais d’inclure différents types de recherche textuelle à travers les différentes langues (du document à la réponse exacte) et de rechercher dans divers types de média (texte, image et discours).

Ainsi dans CLEF 2004, six tâches sont proposées :

recherche mono-, bi-, multilingue dans de nouvelles collections (ad-hoc),

recherche mono-, bi-, multilingue dans un domaine spécifique (GIRT),

recherche inter lingue interactive (iCLEF)

question/réponse multilingue (QA@CLEF),

recherche inter lingue dans une collection d’images (Image CLEF)

recherche inter lingue dans des documents audio (CL-SDR).

1.2.1. La recherche multi-, bi-, monolingue de documents (piste
ad hoc)

L’un des objectifs de CLEF est d’encourager le développement de système de recherche multilingue capable à partir d’une question posée dans une langue de fournir une liste de résultats, ces derniers étant classés par ordre de pertinence.

Le protocole adopté est celui établi par TREC.

En 2003, la recherche multilingue était divisée en deux tâches distinctes :

multilingue-4 : la recherche s’effectue sur une collection comportant des documents en anglais, allemand, français et espagnol ;

multilingue-8 : la recherche s’effectue sur une collection comportant des documents dans les langues citées précédemment ainsi qu’en hollandais, finlandais, suédois, italien.

 

La recherche bilingue visait à entraîner les systèmes à rechercher des documents dans des paires de langues inhabituelles :

Langue source

(= langue dans laquelle sont formulées les questions)

Langue cible

(=langue de la collection de documents)

Italien

Espagnol

Allemand

Italien

Français

Hollandais

Finlandais

Allemand

 

La tâche monolingue visait à tester la performance du système dans huit langues européennes (anglais exclu).

 

1.2.2. La tâche QA (Question Answering)

La tâche QA a été introduite en 2003 à la suite de TREC qui évaluent les système de QA depuis 1999.

A la différence de TREC qui évalue les systèmes travaillant en anglais, CLEF évalue les systèmes travaillant sur des langues autres que l’anglais, et sur les systèmes multilingues.

En 2003, 8 groupes venus d’Europe, des Etats-Unis et du Canada ont participé à 9 tâches, se soumettant à 70 runs.

La tâche monolingue concernait trois langues : hollandais, italien, espagnol.

Quant aux questions de la tâche bilingue, elles étaient formulées dans cinq langues : hollandais, français, allemand, italien, espagnol, la recherche s’effectuant dans une collection de documents en anglais.

200 questions simples, de type factuelles, ont été posées, et les participants étaient autorisés à donner trois réponses par question.

 

En 2004, QA@CLEF se décline en trois tâches :

la tâche principale de QA,

une tâche pilote en espagnol,

une tâche interactive, iCLEF.

 

QA@CLEF inclut davantage de langues européennes et de combinaisons inter lingues.

 

En 2004, 80 groupes ont testé leur système, se soumettant à 48 runs.

Dans la tâche multilingue, deux variables doivent être considérées :

- les langues sources au nombre de 9 (bulgare, hollandais, anglais, finlandais, français, allemand, italien, portugais) ;

- les langues cibles au nombre de 7 (hollandais, anglais, français, allemand, italien, portugais et espagnol).

Au total, 56 tâches, divisées en 6 tâches monolingues et 50 tâches bilingues étaient proposées.

200 questions factuelles ont été soumises dont 10% de questions demandant une définition (par ex. : Qu’est-ce que l’UNICEF ? Qui est Tony Blair ?) et 10% de questions sans réponse.

Des réponses exactes étaient réclamées.

Les mêmes exigences et mesures que la tâche TREC 2002 QA ont été adoptées.

1.2.3. Procédures d’élaboration des requêtes

Les requêtes sont élaborées en essayant de recréer un besoin simulé d’information. Pour chaque langue, des personnes dont c’est la langue maternelle proposent un ensemble de thèmes touchant aux évènements locaux, européens ou d’intérêt général. Les thèmes qui posent des problèmes d’ordre culturel sont éliminés. Les thèmes sont ensuite comparés sur l’ensemble des sites producteurs de façon à vérifier qu’ils sélectionnent un nombre suffisant de documents dans chaque collection. Une fois les thèmes sélectionnés, ils sont traduits dans les différentes langues par des traducteurs expérimentés.

Chaque thème se présente en 3 parties : un titre, une description en une phrase, une partie narrative où sont explicités les critères d’évaluation pertinents.

 

1.2.4. Les collections de documents

Le corpus multilingue contient environ 1,8 million de nouveaux documents issus de la même période (1994-1995), dans 10 langues : hollandais, anglais, finlandais, français, allemand, italien, portugais, russe, espagnol et suédois.

 

La piste domaine spécifique de 2004 a utilisé la même collection qu’en 2003, à savoir une base de textes allemands en sciences sociales (la base GIRT (German Indexing and Retrieval Test)), soit environ 150 000 documents.

 

La piste Image CLEF utilise deux collections différentes :

une collection de photos historiques fournies par l’Université St Andrews (Ecosse),

une collection d’images médicales, disponibles à l’hôpital universitaire de Genève.

 

La piste de recherche inter lingue de documents audio utilise la transcription en anglais des pistes SDR de TREC-8 et TREC-9, fourni par le NIST (National Institute of Standards and Technology).

1.2.5. Les métriques utilisées

Les métriques utilisées sont les mêmes que celles employées pour TREC, à savoir la précision, le rappel, la précision moyenne et l’élaboration d’un graphique qui permet la comparaison entre le résultat d’un participant et la performance moyenne sur l’ensemble des participants pour chaque question.

 

1.2.6. Participation

Pour CLEF 2004, 55 groupes ont soumis leurs résultats (42 groupes pour CLEF 2003) : 36 d’Europe, 13 de l’Amérique du Nord, 4 d’Asie, et un groupe euro-asiatique.

Parmi ces groupes, 11 étaient formés par la collaboration de chercheurs de différentes institutions. Seuls 6 groupes représentaient l’industrie.

Beaucoup de groupes n’ont participé qu’à une seule tâche.

1.3. Limites des campagnes d’évaluation des systèmes de
recherche d’informations

Malgré la popularité et la reconnaissance de ces deux campagnes d’évaluation que sont TREC et CLEF, ces approches des systèmes de recherche d’informations présentent certaines limites notamment au sujet de la prise en compte de l’usager, de la constitution des corpus et des requêtes mais également de l’évaluation elle-même.

 

1.3.1. Á propos de l’usager

Nous pouvons reprocher à cette méthode d’être artificielle et arbitraire. Si le TREC a effectivement amélioré l’efficacité du système, la notion d’utilisateur final implique des connaissances personnelles, une expérience et des capacités de recherche différentes, dont l’évaluation du système ne se soucie pas. En effet, l’évaluation est faite uniquement par des professionnels.

 

1.3.2. Limites du corpus de documents

L'importance des volumes à traiter exclut les petites équipes de recherche et tend à alourdir l'organisation.

La pertinence du corpus de documents est seulement thématique, et non logique ; elle ne prend pas en compte non plus l’opinion de l’auteur. De plus, dans les corpus traditionnels, un document est un texte à part entière, et l’évaluation se fait par rapport au nombre de documents retrouvés, or en général, un utilisateur ne cherche pas des documents mais de l’information, et les documents ne contiennent jamais la même quantité d’information.

 

1.3.3. Limites du corpus de requêtes

Si la recherche peut se faire à partir de mots-clés, la requête est un besoin d’information exprimé en langage naturel. Or, c’est tout le problème de la représentation du besoin d’information de l’usager. La tâche de RI se transforme en tâche de savoir poser les questions à ces systèmes. Les écarts sont grands entre ce que nous pensons et ce qui est interprété. Stefano Mizzaro distingue 5 étapes dans cette représentation problématique :

la " chose " du monde réel qui initie ce besoin d’information

le véritable besoin d’information

le besoin d’information tel qu’il est perçu par l’usager

le besoin d’information tel qu’il est exprimé par l’usager

le besoin d’information tel qu’il est formalisé par le système

D’autre part, un usager ne va pas considérer un document comme étant pertinent s’il en connaît déjà les données ou si le parti pris ne lui plaît pas.

 

1.3.4. Limites des jugements de pertinence

La pertinence est une notion subjective et il paraît impensable de pouvoir la mesurer sans être arbitraire. Nous pouvons noter également que les jugements de pertinence dans le TREC opèrent de façon binaire : un document est jugé pertinent ou ne l’est pas. Pourtant, ce n’est évidemment pas toujours le cas, certains documents sont plus pertinents que d’autres qui le sont quand même. Ces degrés de pertinence dépendent encore de la disposition d’esprit de la personne ayant réellement besoin de ces documents.

 

 

2. Les pistes de réflexion ou comment rapprocher les approches-systèmes et les études-usager

D’autres méthodes d’évaluation des SRI se développent et se recoupent parfois. Nous pouvons dégager 3 grandes tendances : les expérimentations en laboratoire (approche numérique comme dans les campagnes traditionnelles), l’évaluation collaborative à partir de la simulation de tâches (contrairement aux campagnes où l’évaluation est compétitive), et l’étude de fond des usagers en action sur le terrain.

 

2.1. Mira et l’évaluation collaborative

Dans son article " Reflections on Mira : Interactive Evaluation in Information Retrieval ", Mark Dunlop expose les différentes théories avancées par le groupe Mira, fondé en 1996 par la Commission du Programme des Technologies et de l’Information de l’Union Européenne. Ce groupe tente de faire le lien entre les deux communautés que sont la communauté de recherche d’information, privilégiant le paradigme système, et la communauté pour l’interaction homme-machine, privilégiant le paradigme usager. Les objectifs majeurs de Mira sont les suivants : intégrer plus d’interactivité dans la recherche, améliorer le design de l’interface, aller vers des collections plus dynamiques. Autrement dit, il s’agit d’évaluer l’interaction usager-système et pas que le système. Les membres de Mira justifient souvent leur point de vue en faisant une comparaison analogique avec les constructeurs automobiles qui n’améliorent pas seulement la capacité du moteur, mais aussi le confort, la sécurité, etc.

 

Les participants, au cours de six ateliers et une conférence, ont essayé d’établir, dessiner des schémas d’évaluation pour différents scénarios de recherche d’informations. Contrairement au TREC, lors de ces séances, les participants pouvaient échanger librement leurs remarques, s’évaluer les uns les autres, et leurs interactions ont été filmées, puis analysées. Il s’agit donc d’une sorte de " brainstorming " d’un petit nombre de participants exécutant leurs tâches tout en discutant et sans la pression d’un chronomètre. Les résultats ne sont pas mesurables sous forme numérique, mais ces expériences ont permis de soulever de nombreux problèmes (surtout pour l’interface) et de faire avancer la recherche.

 

Ce même groupe Mira affirme qu’il faut développer le guidage de l’usager lors de la recherche d’informations, sous forme d’autres tâches anticipant et suivant la tâche ad hoc, comme la clarification et la formulation du besoin d’informations, l’examen du document extrait, l’explication de la méthode de recherche, avec adaptabilité aux novices et aux experts ; en exploitant les différentes techniques de dialogue et d’interaction homme-machine.

 

Les membres du groupe Mira soutiennent aussi les enquêtes ethnographiques qui cherchent à comprendre comment les IR sont utilisés réellement, plutôt que de leur attribuer un coefficient d’efficacité et d’utilité ; qui partent du principe qu’une technique ne peut pas seulement bien marcher ou pas du tout, mais qu’elle va montrer des variations de performance extrêmes selon le contexte, les usages et les paramètres. Ces enquêtes passent par la description et l’analyse des activités sur le lieu de travail. Elles ont montré que parfois, la fonction la plus importante des RI était la coordination des activités dans le cadre d’un travail collaboratif, et non la recherche en elle-même. S’il est possible que les usagers passent 10% de leur temps à poser et reformuler leur requête, 50% de leur temps est consacré à garder une trace de ce qu’ils ont trouvé, à trier et à voir ce qu’ils ont encore à chercher. Ce serait donc à ce niveau qu’il faudrait améliorer le système. Evaluer les besoins des usagers, mais aussi leurs objectifs et leur satisfaction. Ces études qui empruntent les techniques ethnographiques vont dans le même sens que l’approche cognitive, qui, après avoir soulever les problèmes d’usabilité auprès des usagers, les soumet aux designers de l’interface, qui cherchent alors à les résoudre selon des scénarios d’usage définis au préalable.

Nous pouvons également mentionner l’infosophie, qui s’intéresse au processus socio-technologique de la recherche d’information.

 

En conclusion, nous pouvons dire que le groupe Mira propose une approche transdisciplinaire de l’évaluation des systèmes de recherche d’informations, puisqu’il tend à marier la psychologie cognitive (pour l’ergonomie de l’interface), la linguistique (pour le déroulement du processus en langage naturel), et la logique, les mathématiques et les statistiques (pour l’appariement). Cette transdisciplinarité existe déjà dans le TREC mais elle privilégie de loin les sciences dures.

La réflexion du groupe Mira s’appuie également sur les travaux de Stefano Mizzaro, Jane Reid et Annelise Mark Pejtersen, commentés par Mark Dunlop dans son article " Reflections on Mira : Interactive Evaluation in Information Retrieval ".

 

2.2. Les 4 dimensions de Stefano Mizzaro

Stefano Mizzaro est chercheur et professeur à l’Université de Udine, en Italie.

Les campagnes d’évaluation ne prennent pas en compte le niveau des pré-requis de l’utilisateur final, or ils peuvent varier extrêmement d’un utilisateur à l’autre et le système risque de ne pas leur être adapté si on ne les prend pas en considération. Stefano Mizzaro a réfléchi à ce sujet et montre que ces pré-requis jouent sur tout le processus de recherche d’informations. En effet, plus l’usager a des connaissances pré-requises, plus la représentation du problème de l’usager sera développée, plus la tâche ira loin et sera compliquée, et plus les ressources d’informations seront à approfondir. Ces dimensions concernent donc, d’une part, la question, la requête et le besoin d’information ; d’autre part, le thème, la tâche et le contexte; et enfin, le substitut identifiant le document, le document et l’information en elle-même.

Stefano Mizzaro a aussi introduit une quatrième dimension à prendre en compte lors de ces évaluations afin de se rapprocher le plus possible de la réalité : la dimension temporelle. En effet, le point de vue de l’usager sur la pertinence d’un document change avec le temps au fur et à mesure qu’il apprend sur le sujet ; ou un document considéré comme étant d’actualité à un moment donné, ne le sera peut-être plus l’année suivante, ou le sera de nouveau dix ans plus tard.

 

2.3. Propositions de Jane Reid pour améliorer le corpus

Jane Reid, conférencière du département de Sciences de l’Information de l’Université de Londres, Queen Mary, tente de résoudre le problème à sa source, c'est-à-dire en s’attaquant au corpus de base. Elle donne l’hypothèse d’un résultat plus fiable, si les documents étaient sélectionnés par de réels usagers, si les usagers sélectionnaient eux-mêmes les documents pertinents et applicables à une tâche en particulier, et si le spectre du corpus de documents était plus vaste. Elle propose également de faire un sondage auprès d’un groupe d’usagers pour mesurer le taux en pourcentage de la pertinence des documents par rapport à la question donnée.

2.4. Annelise Mark Pejtersen et l’approche holistique

Annelise M. Pejtersen est chercheuse et maître de conférence à l’Université de Copenhague. Elle est partisane de l’approche holistique, selon laquelle l’usager devrait être considéré comme partie intégrante du système, lui-même venant s’inscrire dans un " métasystème " de recherche d’informations.

Le modèle d’évaluation qu’elle propose est la " méthode de l’oignon ", calquée sur le dessin que laisse apparaître une coupe transversale d’oignon. Ainsi, nous trouvons la machine au cœur de ce modèle ; un deuxième cercle concentrique représentant l’interface (caractéristiques sensorimotrices entrant en jeu, problèmes d’incompréhension des icônes, prise en compte des possibilités d’erreurs de manipulation...); un troisième, la stratégie de recherche (analytique, empirique, bibliographique, " en diagonale "...) ; un autre le guidage (aide pour l’évaluation des objectifs, pour le choix de la méthode d’exploration...) ; l’activité (la tâche) sur laquelle s’appuie cette recherche ; l’objectif personnel de l’usager (la méthode de recherche de l’usager va être différente s’il s’agit d’une publication personnelle ; du désir d’être performant afin de recevoir une promotion...) ; et enfin le dernier cercle inscrivant le tout représente le contexte général de travail.

Plus l’on va vers les niveaux externes, plus la place de l’usager est importante et légitime, et plus la méthode d’évaluation se dirige vers l’ethnographie en s’éloignant par conséquent de l’approche-système.

 

 

2.5. Les 5 domaines d’innovation de Rogers

De manière générale, le but suprême de l’évaluation des SRI est d’augmenter la probabilité qu’un système soit adopté par un maximum d’usagers. Or, paradoxalement, comme nous l’avons vu, les campagnes d’évaluation ne prennent pas assez en compte ces usagers. Pourtant les innovations doivent aller dans leur sens. Rogers propose donc une méthode d’évaluation des systèmes reposant sur 5 facteurs d’innovation déterminants pour l’acceptation de ces systèmes sur les marchés et sur lesquels doivent travailler les constructeurs (relative advantage, compatibility, complexity, triability, observability).

 

Le premier facteur est la supériorité relative de l’innovation, qui est mesurable (vitesse, gain économique, prestige social...). Le deuxième facteur est la compatibilité (avec la structure, les croyances et les objectifs individuels ou collectifs...). Le troisième concerne la complexité du système (difficultés d’apprentissage de la technologie, pré-requis nécessaires à son utilisation...). Le quatrième dépend des dispositifs mis en place pour tester le matériel, la facilité de testing pour le consommateur (accès à des démonstrations du système, périodes d’essai avec possibilité de se rétracter...). Enfin, le dernier facteur s’appuie sur l’efficacité prouvée des innovations du système (jusqu’à quel degré peut-on observer une amélioration).

Pour l’instant, les campagnes traditionnelles d’évaluation mesurent seulement un aspect de la supériorité relative du système.

 

2.6. L’approche du Case Based Reasoning (CBR)

La communauté du CBR évalue chaque étape de la recherche selon 3 critères et se dirige vers une évaluation du cas par cas:

- la satisfaction de l’usager (on peut mesurer l’adéquation de certains paramètres de l’interface avec l’usager en lui posant des questions précises),

- l’évaluation quantitative des résultats (précision, stratégie de classement, préférence de l’usager),

- évaluation de la reformulation de la requête (combien de fois est-elle reformulée, quelle est sa longueur finale par rapport à sa longueur initiale),

puis évalue la session en son entier.

 

3. Proposition de grille d’évaluation des Systèmes de Recherche d’Information

Champ d’innovation

Critères

Mesures/Facteurs à prendre en considération

Performance/Avantage

Performance du système

Pertinence des thèmes

 

Pertinence des réponses en fonction du type de question

Guidage de l’usager

 

Vitesse

Gain économique

 

Prestige social

Rappel et précision

Collection (type, taille, couverture, diversité, fiabilité)

Types de réponse, degré d’exactitude

Aide à la formulation de la requête, aide à la recherche

Temps de réponse

Analyse des bénéfices, retour sur investissement

Concepteur/distributeur

Compatibilité

Motivation des usagers (individuels et collectifs)

 

 

Pertinence sociale

Etude des attentes des usagers selon une méthode sociologique (interview, sondage, vidéo)

Adéquation avec les valeurs de la société

Complexité

Usabilité

Adaptabilité

 

 

Pertinence cognitive

Etude de ergonomie

Niveau de pré-requis (connaissances et compétences)

Satisfaction de usager (sondage, interview…)

Condition d’expérimentation

Situation/contexte

 

 

 

 

Pertinence de l’élaboration des requêtes

Type de contexte (laboratoire, compétition, collaboration, monde réel)

Niveau d’expertise des évaluateurs

Requêtes représentatives ou non de besoins d’information réels

 

Conclusion

 

 

L’évaluation de l’interaction homme-machine est encore trop jeune pour fournir des résultats visibles. Nous voyons se dessiner ici de nouveau le schéma conflictuel sous-jacent opposant les sciences exactes aux sciences humaines, toutes les deux porteuses d’idéologies différentes.

Il n’existe pas aujourd’hui une technique qui serait la technique appropriée pour l’évaluation des SRI, mais une combinaison de toutes les techniques possibles semble nécessaire si l’on veut obtenir une évaluation qui soit la plus juste possible. Nous avons pu voir des propositions apparaissant comme efficaces en termes d’utilité et d’utilisabilité réelles, mais ces méthodes d’évaluation demandent énormément de temps et ne sont peut-être pas toutes réalisables.

De toute façon, " La pertinence [étant] un phénomène dynamique ", comme l’écrit Mizzaro, nous pouvons nous demander s’il est faisable de l’identifier en tant qu’entité à part entière, et à partir de là l’évaluer, puisqu’elle prend autant de manifestations différentes qu’il y a de situations, de tâches et d’individus.

 

 

 

 

Bibliographie

 

CHAUDIRON, Stéphane (dir.). L’évaluation des systèmes de traitement de l’information. Paris : Hermès, 2004. Chap 8, L’évaluation des systèmes de recherche d’informations, p. 185-207.

 

 

DUNLOP, Mark. Reflections on Mira : Interactive Evaluation in Information Retrieval. Journal of the American Society for Information Science. Décembre 2000. p.1269-1274.

 

 

FLUHR, Christian. Chap. 1 : L’évaluation des systèmes de recherche d’informations textuelles. In CHAUDIRON, Stéphane. L’évaluation des systèmes de traitement de l’information. Paris : Hermès, 2004.

 

 

GRAU, Brigitte. Chap. 3 : L’évaluation des systèmes de question-réponse. In CHAUDIRON, Stéphane. L’évaluation des systèmes de traitement de l’information. Paris : Hermès, 2004.

 

 

SALTON, Gérard, McGILL, Michael. Introduction to Modern Information Retrieval. New York: -Hill Book Company, 1983. 448p.,

 

 

VOORHEES, Ellen M. Overview of TREC 2002. In CHAUDIRON, Stéphane. L’évaluation des systèmes de traitement de l’information. Paris : Hermès, 2004.

 

 

 

Webographie

 

CIR. Dr. Annelise Mark Pejtersen. [en ligne]. [consulté le 10/11/04]. Disponible en ligne sur : http://www.ischool.washington.edu/cir/pejtersen.htm.

CLEF. Cross Language Evaluation Forum. [en ligne]. [consulté le 09/11/2004]. Disponible en ligne sur : http://clef.isti.cnr.it/.

FIDEL, Raya, PEITERSEN, Annelise M. From information behaviour research to the design of information systems: the Cognitive Work Analysis framework. Information Research. [en ligne]. Mis à jour le 12/04/04. [consulté le 09/11/04]. Vol. 10, n°1, Octobre 2004.

Disponible en ligne sur: http://InformationR.net/ir/10-1/paper210.html

IRIT. Systèmes d’informations généralisés : description du projet TREC. [en ligne]. Toulouse : IRIT, 2004. [consulté le 09/11/04]. Disponible en ligne sur : http://www.irit.fr/recherches/IRI/SIG/trec.frame.shtml.

ITL. ITL’s Donna Harman Recognized for Achievement in Information Retrieval. [en ligne]. ITL : mis ligne le 09/09/00. Mis à jour Ie 12/09/04. [consulté le 09/11/04]. Disponible en ligne sur : http://www.itl.nist.gov/iad/highlights/2000/harman.html.

MAGNINI, Bernardo, et al. Overview of the CLEF 2004 Multilingual Question Answering tas. [en ligne]. [consulté le 09/11/2004]. Disponible en ligne sur : http://clef.isti.cnr.it/2004/working_notes/WorkingNotes2004/35.pdf.

Mentor Cana. Infosophy : Socio-Technological Rendering of Information. [en ligne]. Publié le 29/06/03. [consulté le 10/11/04]. Disponible en ligne sur :

http://kmentor.com/socio-tech-info/archives/000068. html

 MIRA. MIRA : Evaluation Frameworks for Interactive Multimedia Information Retrieval Applications. [en ligne]. Mira : 16/01/96. [consulté le 10/11/04]. Disponible en ligne sur : http://www.dcs.gla.ac.uk/mira/

MIZZARO, Stephano. Stephano Mizzaro. [en ligne]. Mis à jour le 12/07/04. [consulté le 10/11/04]. Disponible en ligne sur : http://www.dimi.uniud.it/~mizzaro/

NIST. Text REtrieval Conference. [en ligne]. NIST : 01/08/00. Mis à jour le 10/09/04. [consulté le 09/11/04]. Disponible en ligne sur : http://trec.nist.gov/

PETERS, Carol. What happened in CLEF 2004 ? Introduction To Working Notes. [en ligne]. [consulté le 09/11/2004].

Disponible en ligne sur :

http://clef.isti.cnr.it/2004/working_notes/WorkingNotes2004/CLEF2004WN%20-%20intro.pdf.

Présentation . [en ligne]. [consulté le 10/11/04]. Disponible en ligne sur:

<http://www.cs.cornell.edu/courses/cs430/2001sp/slides/lecture11.ppt>

REID, Jane. Jane Reid. [en ligne]. Mis à jour été 2004. [consulté le 10/11/04]. Disponible en ligne sur : <http://www.dcs.qmul.ac.uk/~jane/>.

WU, Mei-Mei, SONNENWALD, Diane H. Reflections of Information Retrieval Evaluation [en ligne]. [consulté le 09/11/2004].

Disponible en ligne sur : <http://pnclink.org/annual/annual1999/1999pdf/wu-mm.pdf>.

 

 

 

=1

Ecrit par solenne, le Mardi 1 Mars 2005, 15:42 dans la rubrique "Ergonomie".

Repondre a cet article

Commentaires

Lien croisé

Anonyme

01-06-06 à 02:03

Search: methode des volumes finis.ppt : "4. Master IDEMM - L'évaluation des systèmes de recherche d'informationsUn outil pour les étudiants du Master IDEMM de Lille 3 ... d'informations textu"


VzuSJHtPmWovE

cracyone

17-04-08 à 13:10

That works out to about twenty five years,


Session

Nom d'utilisateur
Mot de passe

Mot de passe oublié ?

Session

Nom d'utilisateur
Mot de passe

Mot de passe oublié ?