J'ai fini la journée 2 de formation rapide à Needham ensoleillé, MA, et je suis débordant d'idées (dont toutes les classes de bonne formation me faire). Un aspect particulier de rapide m'a pensée et je voulais écrire alors qu'il était encore frais et normal au quotidien "trucs" Il a poussé hors de ma tête.
Nous SharePoint WSS 3.0 / Les implémenteurs MOSS fréquemment confrontés à un problème difficile avec n'importe quel projet SharePoint-de taille raisonnable: Comment obtenons-nous toutes les données non balisées chargées dans SharePoint, telles que tout cela s'inscrit dans notre architecture de l'information parfaitement conçu?
Assez souvent, ce n'est pas un problème difficile parce que nous avons nous-mêmes portée hors de l'ennui: "Nous ne se soucient quoi que ce soit plus de 3 mois." "Nous occuperons de tout ce que vieux trucs avec recherche par mot-clé et dorénavant nous le ferons la bonne façon…" Etc..
Mais, que se passe-t-il si nous ne pouvons pas portée nous sortir du pétrin et nous cherchons à quelques dizaines de milliers ou des centaines de milliers (voire des millions) des docs — le chargement et marquage de qui est notre vœu pieux?
RAPIDE pourrait être la réponse.
Processus de recherche de FAST comprend un grand nombre de pièces mobiles, mais une vue simplifiée est la suivante:
- Un processus de robot d'indexation recherche contenu.
- Il trouve contenu et il transmet à un processus de courtier qui gère un pool de processeurs de document.
- Processus Broker il transmet à l'un des processeurs document.
- Le processeur de document analyse le document et via un processus de pipeline, analyse de la bejeezus depuis les documents et il transmet à un processus de type index builder.
Sur le vaisseau rapide, Nous avons beaucoup de contrôle sur le pipeline de traitement des documents. Nous pouvons mélanger et assortir tout 100 composants de pipeline et, plus intéressant encore, Nous pouvons écrire nos propres composants. Comme j'ai dit, FAST est une analyse de documents de tous les sens mais dimanche et il compile un grand nombre d'informations utiles sur ces documents. Ces fous rapides sont clairement fou et obsessionnelle sur l'analyse du document parce qu'ils ont des outils et/ou des stratégies vraiment classer les documents.
Si … l'utilisation rapide avec notre propre composant de pipeline personnalisé, Nous pouvons saisir toutes ces informations de contexte de rapide et flux retour à MOSS. Il pourrait aller quelque chose comme ça:
- Document est alimenté en rapide de MOSS.
- Fou-obsessionnel normale rapide de documents d'analyse et de catégorisation se passe.
- Notre propre composant de pipeline personnalisé supprime certaines de ces informations de contexte hors d'une base de données.
- Un processus de notre propre conception lit les informations de contexte, rend des décisions sur comment adapter ce document MOSS dans notre IA et la marque vers le haut à l'aide d'un service web et le modèle d'objet.
Bien sûr, aucun processus automatisé peut être parfait, mais grâce à l'obsession (et peut-être insane-but-in-a-good-way gens rapides), Nous pouvons avoir une vraie lutte contre coup à un processus de chargement de masse vraiment efficace qui plus que remplir une base de données SQL avec un tas de documents consultables à peine.
</fin>