dimanche 22 février 2009

Sinequa : vitesse et volume, en gardant la pertinence et la richesse fonctionnelle

Sinequa vient de terminer une première série de tests de charge sur la nouvelle version de notre produit Sinequa CS. Je suis très fier.

Sans optimisation particulière, les capacités mesurées ont de quoi enthousiasmer. Sinequa était depuis longtemps en avance sur le fonctionnel et la pertinence. Quand d'autres ne voyaient pas l'intérêt de gérer la sécurité d'accès, ou la linguistique, ou encore la connectivité, nous avons déjà résolu ces questions depuis trois années. Sinequa a maintenant pu développer une architecture intégrant au niveau des couches basses du logiciel les options utiles pour offrir les fonctionnalités requises en entreprise tout en donnant des performances de premier ordre. La technologie Sinequa dispose désormais d'une puissance inégalée à ce niveau fonctionnel. Cela fera l'objet de fiches produits détaillées, mais en attendant, voici un aperçu des premiers résultats :


Vitesse de réponse sur un grand volume d'utilisateur : jusqu'à 1700 requêtes simultanées par seconde sur un serveur bi-processeur (temps de réponse moyen aux alentours de 10 millisecondes). En terme d'applications, notre client le plus exigeant à ce jour gère des pics à 400 requêtes par secondes, nous générons ici un gain de l'ordre de fois 50 par rapport à la version précédente et surtout largement suffisant quelles ques soient les ambitions du client.

Capacité volumétrique d'indexation par serveur. Un seul serveur a indexé près de 100 millions de documents (mélange de formats d'entreprise) en quelques dizaines d'heures sans atteindre ses limites. Il s'agit d'un serveur quadri-processeur, donc des résultats très encourageants ; C'est une énorme progression pour Sinequa, surtout étant donné que ces performances s'accompagnent d'une linéarité parfaite vis-à-vis du nombre de serveurs. Nous pouvons maintenant véritablement indexer l'intégralité de l'entreprise sans consommer des ressources machines énormes, dans un temps raisonnable avec un rafraichissement suffisant. Pour les temps d'indexation et le volume précis, je ne détaille pas et j'attends d'avoir les benchs par typologie de document, car évidemment entre un PDF, un word, un fichier excel ou un un html, il y a des différences notables. A titre d'exemple, un serveur d'entrée de gamme peut indexer un peu plus de 1000 document type articles de presse par seconde, soit près de 100 millions de documents en 24 heures par serveur.

Capacité d'indexation d'une base de donnée sur un serveur d'entrée de gamme (4 processeurs et 8 Gigas de RAM): 5000 lignes (ou data base objects) par seconde, ce qui a donné près de 20 millions de lignes à l'heure et finalement 100 Millions de « database objects » indexés en 5 heures. Et nombre maximal d'insertion par secondes 10.000 soit au final près de 100 Millions en moins de trois heures. J'ai récemment lu les résultats d'un concurrent qui s'émerveillait d'indexer 30 millions de « database objects » en dix heures sur un serveur. Sinequa fait 6 à 7 fois plus vite, et il s'agit pourtant d'un concurrent dont les performances sont le principal atout fonctionnel. De belles batailles commerciales en perspectives.

Il nous tarde maintenant que cette nouvelle version de l'offre Sinequa soit exploitée en entreprise ; la richesse fonctionnelle de Sinequa alliée à ce niveau de performances, cela devrait donner des résultats que les utilisateurs plébisciteront. Il ne faudra pas attendre longtemps car la première mise en production aura lieu le mois prochain…

1 commentaire:

  1. Ces premiers résultats en attendant leur validation opérationnelle par des clients intéressés sont plus importants qu'il n'y parait.
    On sait que la capacité des moteurs de recherche à contribuer à améliorer la productivité des entreprises dépend dans une large mesure de l'action de formation qui doit nécessairement accompagner leur mise en place.
    Mais elle est également fonction de la rapidité d'indexation des données et encore plus de l'instantanéité d'accès aux résultats de la recherche, qui ne doivent pas être de nature à décourager les utilisateurs néophytes qui ne doivent pas être découragés par des temps d'attente rédhibitoires.
    Or alors que le déploiement de l'économie numérique n'en est, contrairement à ce que l'on peut parfois penser, qu'à ses débuts dans les entreprises, il faut s'attendre dans les années qui viennent avec l'arrivée notamment de nouvelles générations d'ingénieurs dont la manière de travailler est exclusivement numérique à l'explosion des quantités de données à traiter.
    Merci en tout cas à Jean Ferré de donner à ses clients actuels ou potentiels des éléments de référence permettant de comparer sérieusement les performances des diverses solutions offertes sur le marché. Cela change des analyses souvent trop subjectives et comparant non pas tant les capacités effectives des concurrents que leur habileté à communiquer, qui sont parfois proposées aux entreprises qui cherchent à y voir clair!

    RépondreSupprimer