Réseau universitaire international de Genève
Geneva International Academic Network

Français | English
Accueil > La Recherche > Projets > Description détaillée

Analyse linguistique et extraction de collocations

Appel d'offres annuel 2001

Description

La communication interculturelle pose fréquemment le problème, notamment dans les organisations internationales, de la bonne compréhension des expressions idiomatiques, c'est-à-dire des expressions à mots multiples, dont le sens collectif diffère du sens individuel de chaque mot. L'importance des expressions à mots multiples est d'ailleurs largement reconnue dans les domaines de la traduction et de la gestion terminologique. Dans leur très grande majorité, en effet, ces expressions ne peuvent se traduire littéralement et il s'agit de trouver des correspondances acceptables (figées ou non) dans la langue cible.

Ce problème prend une importance critique lorsqu'une telle expression se rencontre dans un texte de négociation ou dans un accord de nature juridique. Il est alors indispensable, tant pour les participants aux négociations que pour les traducteurs, d'être en mesure : (i) de reconnaître que le groupe de mots considéré est en fait une expression à mots multiples ; (ii) d'en comprendre le sens dans la langue source ; et (iii) d'en retrouver rapidement la traduction exacte dans les différentes langues cibles.

Le problème du repérage et de l'extraction des expressions à mots multiples, et en particulier des collocations (par collocation, nous entendons ici une combinaison conventionnelle de mots telle que marée noire, part de marché, exercer une profession, caresser l'espoir, dresser le bilan, etc.), est un sujet de grande actualité en linguistique informatique. En plus du problème lié à la traduction, mentionné ci-dessus, la prolifération des banques de données textuelles, par exemple sur Internet, rend toujours plus nécessaire des outils d'indexation et de recherche aussi fins que possible. Le repérage d'unités plus larges que le simple mot orthographique constitue un élément important d'amélioration de ces outils.

On notera que s'il existe des dictionnaires de mots composés et d'expressions figées, on ne trouve guère d'ouvrages traitant spécifiquement des collocations (avec l'exception notable du BBI Dictionary of English Word Combinations).

L'informatique est en mesure d'apporter des éléments de solution à ce problème par le biais d'outils permettant de reconnaître les expressions les plus courantes et d'en proposer des traductions. On trouve déjà sur le marché des systèmes d'extraction de collocations, basés sur des approches stochastiques (c'est-à-dire statistiques). Cependant, pour être efficaces et réellement satisfaisants, ces systèmes doivent impérativement être fondés non pas uniquement sur des méthodes stochastiques, mais également sur une véritable analyse syntaxique. La problématique de ce type d'outils doit donc être abordée dans le contexte de la linguistique informatique.

L'objectif prioritaire de ce projet est la conception et le développement d'un système informatique d'extraction terminologique capable de traiter les expressions à mots multiples basé sur une analyse linguistique détaillée. L'originalité de notre approche tient précisément au fait que l'extraction de collocations se fait non à partir de textes bruts, mais bien à partir de textes analysés syntaxiquement. L'analyse linguistique effectue un filtrage fort sur les paires de mots considérées. Seuls les mots qui sont reliés par une fonction syntaxique spécifique sont ensuite passés aux tests statistiques, augmentant sensiblement la qualité des extractions. Le système ainsi réalisé sera appliqué et évalué sur des corpus documentaires de l'OMC et viendra enrichir l'environnement de travail du traducteur, des terminologues et des documentalistes de cette organisation.

La contribution du RUIG pour ce projet s'élève à CHF 234'000

> Descriptif moins détaillé

 

Equipe de recherche

M. Fermin Alcoba Enciso , Membre principal, Division des services linguistiques et de la documentation, Organisation mondiale du commerce (OMC) .

M. Juan Mesa , Membre principal, Division des services linguistiques et de la documentation, Organisation mondiale du commerce (OMC) .

M. Olivier Pasteur , Membre principal, Division des services linguistiques et de la documentation, Organisation mondiale du commerce (OMC) .

Résultats de recherche

Analyse linguistique et extraction de collocations
(disponible en anglais et en français)
> plus d'informations
Analyse linguistique et extraction de collocations - Rapport final
(uniquement disponible en anglais)
> plus d'informations