dimanche 20 juin 2010

Du Web au Web sémantique

L’évolution du Web dans sa version 2.0 a montré comment le collectif des utilisateurs est désormais de plus en plus impliqué dans la production d’information grâce à des outils de gestion de publication (CMS), des plateformes de blog et de wiki, des espaces dédiés aux pages personnelles comme MySpace ou des sites pour gérer son réseau social (Linkedin, Facebook…). Parallèlement à cette production collective de contenus, d’autres outils sont apparus pour organiser cette masse d’information en produisant des méta-informations suivant deux principes de base : la pondération et le tagging. Le principe de pondération est très simple, il consiste à voter pour une information pour collectivement faire émerger la pertinente de celle-ci. A chaque vote d’un utilisateur l’information prendra 1 point supplémentaire de pertinence (Digg…). Ainsi il sera possible de ne consulter que les informations qui sont apparues les plus pertinentes, celles pour lesquelles une communauté d’utilisateur a le plus voté. Le principe du tagging est quand à lui plus complexe car ce n’est plus un calcul numérique qui est effectuée mais une compilation de tags (mot-clef) exprimés en langage naturel. Ces compilations de tags qu’on appelle des folksonomies (delicious, diigo…), permettent d’organiser collectivement les contenus et de les partager mais ne sont pas facilement interopérables dans un système multilingue et encore moins calculables pour par exemple créer automatiquement des agrégations. Nous nous confrontons sans doute là à une des limites actuelles du développement de l’intelligence collective.


Web sémantique (exploitation intelligente de documents et données textuelles sur le web)

 Aujourd’hui, le Web est exploité par des personnes qui recherchent des informations via un moteur de recherche et qui exploitent elles-mêmes le(s) résultat(s).
Demain, le Web sera exploité en priorité par des machines qui traiteront elles-mêmes les questions posées par des personnes, et qui délivreront les résultats à ces personnes.
 Le Web va devenir un espace d’échanges d’informations entre machines , en permettant l’accès à un très grand volume d’informations, et en fournissant les moyens de gérer ces informations.une machine peut appréhender le volume des informations disponibles sur le web, et donc fournir une aide plus conséquente aux personnes, à condition qu’on la dote d’une certaine « intelligence  ».Actuellement autour du Web il existe …des moteurs de recherche et une indexation des pages, des procédures d’extraction d’information, des procédures d’analyse de l’information, mais il n’ y a pas (encore) la possibilité d’exploiter des connaissances pour une gestion plus intelligente des informations : recherches par le contenu des documents, raisonnements, résolution de problèmes,

Vers un espace partagé, navigable et personnalisé

Un Web qualitatif et quantitatif : « il y a tout ce qu’on cherche sur le Web …». • Cet espace d’échange peut être personnalisé , avec des espaces privés, publics, sécurisés, des procédures d’authentification, une signature digitale, La preuve du bien fondé d’un résultat doit pouvoir être donnée par la machine.

Quels sont les besoins ?

Une identification et un accès aux ressources du web de façon simple, robuste, et efficace (URI). Des langages pour décrire le contenu des documents/ressources, pour associer une sémantique à ces descriptions, et des moteurs d’inférences pour les manipuler …Des ressources de plusieurs types : ontologies (bases de connaissances), bases de données, éléments de code, etc.

  Les technologies en jeu

• La technologie du Web : URI, XML, RDF(S), …
• La représentation des connaissances : ontologies, logique, preuve de théorèmes, …
• La gestion de bases de données : requêtes, stockage, données semi-structurées, …
• Recherche et extraction d’informations, fouille de données.
• Traitement et analyse de l’information.
• Interopérabilité et coopération.

  XML et la galaxie XML

• XML : description de documents (arbre).
• DTD : validité d’un document.
• XML-Schema : description de la structure d’un document.
• RDF(S) : description de ressources.
• XQL, XSL, …
• XML ne donne pas de possibilités de typage (contrôle et organisation), et propose des structures « sans sémantique » !
 
Sémantique, représentation et raisonnement

•Un formalisme de représentation des connaissances.
•Des formalismes de raisonnement : diversité des moteurs d’inférences.
•Une construction de preuves : authentification et validité d’un résultat.
•La technologie des SBC à l’échelle de la planète : OIL+DAML, SHOE, OntoBroker,
 Quelques applications présentes et futures

• E-commerce en tous genres …
• Catalogues : gestion, construction et consultation.
• Ontologies et serveurs de connaissances.
• Interopérabilité et coopération entre applications.
• Mémoire d’entreprise.
• Veille technologique, gestion de l’information scientifique et technique, bibliométrie, …
 
Le projet ESCRIRE

ARC Inria Rhône-Alpes, Sophia, et Loria
• Traitement « intelligent » de requêtes sur un ensemble de documents (textes de biologie) annotés, en exploitant une ontologie du domaine. L’objectif in fine est de comparer trois formalismes de représentation graphes conceptuels, logiques de descriptions, représentation par objets du point de vue de la manipulation du contenu de documents.

Conclusion

Le Web sémantique est une recherche pluridisciplinaire, il doit rester ouvert, extensible, d’accès simple et facile … Une cohabitation et une coopération qui être efficace, sûre et intelligente entre descriptions, documents, représentation, raisonnement, données, applications, …Le Web partout  dans la voiture, le réfrigérateur, le four, la voiture, le vélo …


Aucun commentaire:

Enregistrer un commentaire