Eu já terminei o dia 2 de formação rápida em Needham ensolarado, MA, e eu estou estourando com idéias (que todas as classes de treinamento bom fazem comigo). Um aspecto particular de rápido tem-me pensar e queria escrevê-lo enquanto era ainda fresco e normal do dia a dia "" empurrou-o fora da minha cabeça.
Nós do SharePoint WSS 3.0 / Implementadores de musgo freqüentemente enfrentam um problema difícil com qualquer projeto SharePoint tamanho razoavelmente: Como vamos fazer todos os dados sem marcas de formatação, carregados em SharePoint que tudo se encaixa dentro da nossa arquitetura de informações perfeitamente projetado?
Com bastante frequência, Isto não é um problema difícil, porque nós nos escopo fora do problema: "Não nos importamos com nada mais do que 3 meses de idade." "Nós vai lidar com os problemas com a pesquisa palavra-chave e vai para a frente vamos fazê-lo da maneira certa…" Etc.
Mas, o que acontece se nós não nos escopo fora do problema e estamos olhando 10 dos milhares ou centenas de milhares (ou mesmo milhões) de docs — o carregamento and marcação de que é nosso desejo devoto?
RÁPIDO pode ser a resposta.
Processo de busca do FAST inclui um monte de peças móveis, mas é uma visão simplificada:
- Um processo de rastreador procura conteúdo.
- Ele encontra o conteúdo e entrega-o a um processo de corretor que gerencia um pool de processadores de documento.
- Processo corretor mãos fora um dos processadores de documento.
- O processador de documentos analisa o documento e através de um processo de pipeline, analisa o bejeezus fora do documento e entrega-o a um processo de tipo de construtor de índice.
Na nave FAST, Temos um monte de controle sobre o pipeline de processamento de documentos. Nós pode misturar e combinar sobre 100 componentes do encanamento e, mais interessante, Podemos escrever nossos próprios componentes. Como eu disse, FAST é analisar documentos desordenadamente, mas domingo e ele compila um monte de informações úteis sobre os documentos. Aqueles malucos rápidos são claramente louco e obsessivo sobre a análise do documento porque eles têm ferramentas e/ou estratégias realmente categorizar documentos.
Assim … usando rápido em combinação com nosso próprio componente de pipeline personalizado, Podemos pegar todas essas informações de contexto de rápido e alimentá-lo de volta para o MOSS. Pode ser que algo parecido com isto:
- Documento é alimentado no rápido de MOSS.
- Análise de documento rápido normal de louco-obsessivo e categorização acontece.
- Nosso próprio componente de pipeline personalizado deixa cair algumas dessas informações fora de contexto para um banco de dados.
- Um processo de nosso próprio projeto lê as informações de contexto, faz algumas decisões sobre como adaptar esse documento de musgo dentro de nossa IA e marca-la usando um serviço da web e o modelo de objeto.
É claro, Nenhum tal processo automatizado pode ser perfeito, mas graças ao obsessivo (e possivelmente insane-but-in-a-good-way pessoas rápidas), Talvez tenhamos uma verdadeira luta tiro em um processo de carga em massa verdadeiramente eficaz que encher mais do que apenas um banco de dados SQL com um monte de documentos mal pesquisável.
</fim>