ARPHI

Logiciels intégrés de GED : un approche provisoire

     Accueil  Société    Prestations :   Management de transition   Gestion du savoir   Expertise textile

 

Méthodes, outils

Stratégie Business Intelligence

 

GED

 

Knowledge Management,

 

 Télétravail

 

Veille Intelligence économique 

 

Intelligence territoriale 

 

Formation

 

Divers

 

Définitions

Liens 

Se détendre

Plan du site

 

 

 

 

Les possibilités des matériels de capture (scanners, caméras numériques, etc.) sont maintenant assez connus, essentiellement parce qu’un scanner dit « de production »(24p/’ à 160 images/’) utilise la même technologie de base qu’un scanner « de bureau ».

 

Les possibilités de stockage le sont moins, sauf si l’on se cantonne aux possibilités des CD/R ou des disques magnéto-optiques.

Par contre, les foisonnement des offres de logiciels peut déconcerter le responsable de projet.

 

Il est difficile de « suivre » le marché :

·  cessions de licences (ex « EuriGED a repris les activités LAD d’Elsag et propose des nouveaux produits à sa marque),

· accords d’importation (ex BVA Myfra commercialise Alchemy de IMR)

· changement rapide de politique commerciale (ex le toolkit de Zylab annoncé en septembre 99 n’est plus à la vente en novembre 99)

 

Il est conseillé de suivre (comme dans l’alimentation) « l’origine » des logiciels : ADI de DPCI est en fait Gestinfor, FormsRec de Almas ingénierie vient de ICR Software (D) etc.

 

Enfin nous ne citerons pas nos confrères présentant comme des produits « maison » des modules standards assemblés et « kités ».

 

Les logiciels de GED couvrent des fonctionnalités. Ces fonctionnalités concernent soit l'acquisition des données, soit leur exploitation. En fonction de cela, la vision « américaine » distingue deux créneaux distincts : la « GED de production »  et la « GED de référentiel »

On aurait ainsi dans la première famille des « intégrés » tels que Documentum, Filenet ou Opentext (après achat de Basis), des logiciels tels que Alchemy dans la deuxième. La frontière est plus diffuse à l’analyse des fonctionnalités respectives.

 

Au total, la GED fait aujourd'hui partie de ces appellations non contrôlées, au sens mouvant, qui recouvrent un ensemble de notions plus ou moins floues. Nous allons tenter de clarifier le débat en analysant point par point ses fonctionnalités.

 

Résumons la segmentation :

 

Segmentation de la GED :

  • la “ GED de production ” (IDM : Integrated Document Management) : l ’acquisition

  • GED “ COLD ” (Computer Output Laser Disc)

  • GED “ image "

  • la GED «  de référentiel » (IDARS : Integrated Document Archiving and Retrieval).
  • L’archivage,

  • La gestion des ressources documentaires   

  • Le Workflow (gestion de la circulation)

 

Un intégré peut se décomposer en modules spécialisés. Nous les citerons dans l’ordre du traitement :

 

1)       capture papier :

exemple « Zyscan de Zylab

Ce module permet de gérer l’acquisition. Il est utile de vérifier comment ce module « suit » les plus récents scanners de production à haut débit.

 

Dans le détail, les fonctions sont :

  • le pilotage des scanners (combien de drivers sont inclus dans le logiciel?)

  • les filtres d’acquisition,

  • le contraste,

  • la netteté,(utile avant le passage LAD)

  • le filtre anti-alias

  • l' anti moirage,

  • la conversion de la trame  trame en couleur uniforme, 

  • la séparation et conversion N/B-images,

  • le nettoyage, etc.

Ce module « rote »-t-il (effectue-t-il automatiquement la rotation) les images capturées ? (Ascent Capture ou Teleform)

2) identification :

ex. FormID de ITEsoft ou Autodec de Euriged

Ce module reconnaît les différends formulaires appris dans une suite de documents hétérogènes et permet de s’affranchir du tri préalable des originaux.

Ce point est particulièrement important pour des organismes tels que les CAF ou URSSAF. (DPCI capitalise ainsi sur cette fonctionnalité pour son intégré ADI  installé à la CAF de Quimper.).

 

3) capture électronique :

Il faut parfois récupérer des « vieux » fichiers.

La norme actuelle est de savoir reconnaître plus de 250 formats de fichiers :

-          soit venant de spool, .COM, CAO DAO (Autocad),

-          soit de fichiers PC,

-          soit de fax

-          soit de SGBD (ex. module ODBC Manager chez Alchemy).

 

 

4) LAD Lecture automatique de documents.

Certains vendent séparément les sous-modules (par ex. chez Itesoft, il y a Formscan pour les formulaires COLD , Checkscan pour les chèques et Quizscan pour le texte.) Les meilleurs américains pour cette fonctionnalité sont Teleform et Eyes&Hand(Kofax).

 

D’autres utilisent sans le dire des moteurs LAD courants. Pour notre part, nous aimons l’approche de Alchemy : cet intégré comporte un  LAD relativement simple plus que suffisant pour les opérations d'indexation : les mots reconnus ne servent en général qu'à l'indexation "full text" , sans idée de reproduire la présentation. Par contre, il peut s’interfacer avec n’importe quel logiciel spécialisé, par exemple : Omnipagepro dans sa version 10.

Un LAD doit aujourd’hui être multilingue, disposer de nombreuses polices, reconnaître les langues automatiquement, et si possible reproduire la présentation (Omnipage v10 fait ainsi deux lectures : une pour la présentation, une pour le texte).

 

Attention, un bon OCR de texte peut être indigent en OCR zoné, ou d'autres sont très bons.  

 

En OCR zoné, (lecture de zones dans des formulaires), le coût de paramétrage du module (définition exacte des zones de lecture et déclaration de ce que la lecture doit y trouver) dépasse son coût propre.

 

5) Dictionnaire(s)

Il n’est parfois pas compris dans le LAD.

 

6) indexation :

C’est probablement le module ou l’évolution est la plus rapide, parce que l’indexation est le goulot d’étranglement de la chaîne à l’heure des scanners rapides.

Il y a trois modes d’indexation : par opérateur, par étiquette code-barre posée sur le document, par indexation en texte intégral. Cette dernière méthode se développe rapidement.

Le développement de ce « simple » module remplirait des DVD.

Mentionnons parmis ces moteurs d’indexation documentaires (Search & Index engines toolkits) : Verity, Pulgrom (Fulgrom) et Basis.

 

Deux modes d'indexations doivent être au minimum réalisées de front :

 

-         sur champ par opérateur ou suivant le cas par indexation automatique,

-         par indexation en texte intégral.

-         Sur champs de profil du document,

-         Sur champs de profil du dossier,

 

 

En outre des annotations doivent pouvoir être jointes,

 

Il est souhaitable que dans l'indexation par champ, l'opérateur dispose d'un Thésaurus.

 

 

7) recherche

Ces modules utilisent quasi systématiquement des « moteurs »  du marché aux performances variables. Les méthodes de recherche correspondent aux types d’indexation. L’indexation en texte intégral permet l’utilisation de critères de recherche très personnalisés « booléens ». (utilisation de « et » « ou », « sans »,etc.), avec « joker » et troncature avant et arrière.

Une méthode dite d’intelligence « floue » complète les méthodes classiques puisqu’elle permet de s’affranchir des erreurs de LAD. Celle dernière méthode n’est en aucun cas « magique » et introduit des incertitudes. 

 

Les fonctions de recherche souhaitées sont :

 

-         plan de classement/organisation hiérarchique des bases, dossiers et documents,

-         texte intégral (document et OCR),

-         Champs de profil du document,

-         Champs de profil du dossier,

-         Texte intégral sur annotations,

-         Mot ou phrase,

-         Recherche globale,

-         Recherche multi-bases

-         Opérateurs booléens (utilisation de « et » « ou », « sans »,etc.

-         Recherche adjacente,

-         Troncature,

-         Logique floue (cette méthode dite d’intelligence « floue » complète les méthodes classiques puisqu’elle permet de s’affranchir des erreurs de LAD),

-         Classement par pertinence,

-         Requêtes sauvegardées,

-         Recherche progressive,

-         Dictionnaire des champs/occurrences,

-         Intervalles de date (>=<),

-         Intervalle numérique (>=<),

 

 

Un Thésaurus synonymique et personnalisable est hautement souhaitable.

Il est souhaitable que le module présente le résultat avec un indice de pertinence.

 

Dans certains logiciels, il est mis en avant une recherche « phonétique ». Cette fonctionnalité a le tort d’être « language dependant ». Clairement, elle ne sert pas.

 

8) Visualisation

 

A ce niveau, la capacité à « s’interfacer » avec 250 formats de fichiers au moins est essentielle.

L’ergonomie de la visualisation est également un facteur majeur à notre sens.

Un affichage par dossier complet est agréable.

La norme actuelle est l’affichage WYSIWYG des mots trouvés directement sur le fichier image.

ndlr : c'est la tendance en acquisition : c'est l'image du document qui est conservée, les mots reconnus servant d'index "full text".

Concernant la qualité de l’image, mentionnons Alchemy qui par plug-in s’interface avec Acrobat, procurant des images vectorisées de bien meilleures qualité que les images rasterisées.

 

 

9) Workflow :

En l'absence de définition officielle du workflow, il règne une certaine confusion et un mélange des concepts avec le groupware, la GED, etc. Nous proposons comme définition du workflow celle d'outil décisionnel coopératif dont les paramètres sont les suivants:

·         un nombre limité de personnes;

·         devant accomplir en un temps limité;

·         des tâches articulées autour d'une procédure définie;

·         et ayant un objectif global.

 

Un module « workflow » fait ainsi « circuler » un « dossier » numérique de manière ordonnancée parmi des personnes devant accomplir des tâches (fût-ce une approbation)

Outil informatique d'origine industrielle, les « workflow » peuvent être très complexes et proposer des solutions d'optimisation et de rationalisation des flux d'informations.

 

 

10) capacité intranet/internet :

Un intégré (ou tout simplement le module de gestion d’archives) n’est pas nécessairement compatible intranet ou internet.

Il faut systématiquement vérifier les environnements acceptés.

 

Un deuxième niveau de vérification est la capacité du logiciel à l’e-commerce. Nous ne connaissons pas de client n’envisageant pas un jour de valoriser leur fonds.

Le niveau suivant est de vérifier si l’intégré peut s’interfacer avec un module de télépaiement sécurisé.

 

 

11) gestion du stockage

Ce module doit aujourd’hui gérer de manière transparente différents médias de stockage (du disque dur au juke box de disques magnéto optiques).

(ex Hyparchiv de Atria)

La capacité de gestion à distance est un plus.

Ces modules évoluent également rapidement.

 

gestion du gravage de CD : Cet aspect qui semble simple pose en pratique de nombreux problèmes puisque les logiciels intégrés tentent -et c'est normal - de gérer les déplacements ou les copies de base. Il vaut souvent mieux passer par un logiciel spécialisé. 

 

12) Dans ce paragraphe , nous incluons la gestion des versions, lorsqu’il s’agit de diffuser des référentiels.

 

13) Toolkit

Cette boîte à outil logiciel permet à votre prestataire (ARPHI par exemple) de bâtir des applications tout particulièrement adaptées en utilisant les fonctionnalités des modules précédents.

Seuls quelques éditeurs commercialisent des Toolkit. (C’est ainsi que des logiciels connus sont construits en fait avec le toolkit Alchemy.)

 

 

 

Certaines fonctionnalités ne vous sont peut-être pas nécessaire (ex : identification pour des archives, recherche « floue » pour un état civil). A l’opposé, certains éditeurs se sont très spécialisés (c’est le cas de Almas ingénierie dans les traitements de laboratoires, d’ordonnances et d’assurance maladie)

 

D’autres critères, d’importances variables sont à prendre en compte :

 

·         Gestion des utilisateurs : Les utilisateurs « search » représentent 80 %, les utilisateurs « build and search », 20 %.

 

·         « ouverture » du logiciel,

 

·         environnement (ex Windows NT)

 

·         gestion des hypertextes : A notre avis, il est difficile de gérer des hypertextes au delà de 100 documents. (Qui n’a pas abouti, sur le Web, à un lien manquant ?). Nous préférons adopter la position que la création de liens est un travail d’auteur, et non celui d’un administrateur de fonds documentaire.

 

·         Volume relatif du fichier index : Il peut représenter, selon les éditeurs, 3 à 5 % de la taille des fichiers, mais aussi 5 à 10 %, voire plus.

 

·         gestion des droits de reproduction/diffusion. Ce point nous semble majeur. En effet, tel service des impôts fonciers devant équiper plusieurs services de cadastres départementaux aura des droits de licence très différents suivant le mode de tarification : par poste, par licence flottante, par package de plusieurs postes, voire au choix du prestataire intégrateur.

·         En outre, une diffusion (sur base CD/R par exemple) nécessitera d’adjoindre sur le CD/R un module de recherche. Il est essentiel que cette diffusion puisse s’effectuer dans des coûts réduits.

 

·         Autonomie et portabilité : Capacité de l’intégré à fonctionner indépendamment de la machine hôte. Les systèmes Linux et Macintosch sont aujourd’hui peu considérés par les éditeurs (marché insuffisant).

 

·         Fonction d’exportation : Ce point est majeur pour des archives départementales par exemple. A tout moment, le format des fichiers de l’intégré doit pouvoir être converti dans un format qui apparaîtra standard.

 

·         Le prix bien entendu

Au total, aucun « intégré » n’a aujourd’hui toutes les fonctionnalités, par contre les leaders par domaine sont bien identifiés.

 

En conséquence, une problématique subsiste : votre solution doit elle être le fruit :

-          D’un interfaçage, et dans ce cas lequel ?

-          D’une intégration ?

 

Pour notre part, nous adoptons une démarche de prudence :

1) Sauf dans des cas extraordinairement spécifiques, soit par l'application elle-même, soit parce que l'ergonomie est essentielle, nous privilégions l'interfaçage.

2) Nous privilégions toujours le moindre nombre d'interfaçage (2 ou 3) à la recherche de fonctionnalités les plus pointues. Ce qui signifie que nous préférons partir d'un bon intégré (par exemple Alchemy pour une base documentaire) auquel nous adjoignons, lorsque c'est nécessaire, les logiciels dont les fonctionnalités sont essentielles pour votre organisation GED. Ceux ci doivent être déjà eux mêmes très intégrés (par ex Ascent Capture pour un OCR zoné, Lotus pour un Workflow coopératif ou tel autre pour un Workflow de production).

3) Autant que faire se peut, les logiciels interfacés doivent être "compagnons"; c.à.d. que leur éditeurs respectifs ont passé des accords de coopération.

 

ADDENDUM :

La rédaction ci-dessus - qui date de 2000 - reste toujours d'actualité. La percée de la "bulle" spéculative sur les NTIC a considérablement ralenti l'évolution dans ce domaine ou les investissements de développement sont importants.

Quelques évolutions néanmoins :

  • passage quasi systématique aux logiciels " .net". certains éditeurs ont du réécrire toutes leurs applications.
  • Evolution vers une utilisation au travers de portails,
  • Spécialisation des éditeurs entre portails, gestion de catalogues,gestion documentaire, de contenu WEB et de documents Multimedia.
  • Beaucoup de recherche sémantique pour déboucher vers des moteurs d'interrogation avec vecteurs de sens et/ou thésaurus.  Il n'y a pas encore de produit établi dans ce domaine.

Une typologie des éditeurs est présentée ci dessous :

 

 

 Retour Page GED    Retour Page d'accueil  Présentation de ARPHI Copyright © 2000 ARPHI