SharePoint agus FAST — Cups na Reese Im Peanut na Apps Fiontar?

Tá mé críochnaithe suas lá 2 oiliúna FAST i Mostly Needham, MA, agus tá mé ag bursting le smaointe (a dhéanamh go léir na ranganna oiliúna maith dom). One particular aspect of FAST has me thinking and I wanted to write it down while it was still fresh and normal day-to-day "stuff" bhrúigh sé amach as mo cheann.

Táimid SharePoint SSU 3.0 / Aghaidh a thabhairt ar chur chun feidhme go MOSS ar fadhb diana le haon tionscadal SharePoint réasún-iarrachtaí: Conas is féidir linn a fháil go léir na sonraí untagged luchtú isteach SharePoint den sórt sin go n-oireann sé go léir laistigh dár ailtireacht faisnéise breá deartha?

Is minic go leor, nach bhfuil sé seo den sórt sin ina fhadhb crua mar gheall ar raon muid féin ar an mbóthar: "We don’t care about anything more than 3 months old." "We’ll handle all that old stuff with keyword search and going-forward we’ll do it the RIGHT way…" Etc.

Ach, what happens if we can’t scope ourselves out of trouble and we’re looking at 10’s of thousands or 100’s of thousands (nó fiú na milliúin) de docs — an luchtú agus Is é a chlibeáil ar ár mian a devout?

D'fhéadfadh a bheith FAST an freagra.

Áirítear próiseas cuardaigh FAST ar a lán de na codanna ag gluaiseacht ach tá sé ar cheann dearcadh simplithe seo:

  • Breathnaíonn A próiseas crawler le haghaidh ábhar.
  • Fhaigheann sé ábhar agus tugann sé amach le próiseas bróicéir a bhainistíonn le linn na próiseálaithe doiciméid.
  • Caoimhín próiseas Bróicéir sé amach ar cheann de na próiseálaithe an doiciméad.
  • Anailís ar an próiseálaí doiciméad an doiciméad agus trí phróiseas píblíne, anailís ar an bejeezus as an doiciméad agus tugann sé amach le próiseas cineál tógálaí innéacs.

Ar an FAST starship, we have a lot of control over the document processing pipeline. We can mix and match about 100 comhpháirteanna píblíne agus, is suimiúil, we can write our own components. Like I say, FAST is analyzing documents every which way but Sunday and it compiles a lot of useful information about those documents. Those crazy FAST people are clearly insane and obsessive about document analysis because they have tools and/or strategies to REALLY categorize documents.

Mar sin, … ag baint úsáide as FAST i gcomhar lenár chomhdhéanann í píblíne saincheaptha féin, we can grab all that context information from FAST and feed it back to MOSS. It might go something like this:

  • Tá Doiciméad chothú i FAST ó CAONAIGH.
  • Gnáth parsáil doiciméad dÚsachtach-obsessive FAST agus a tharlaíonn catagóiriú.
  • Titeann ár chomhdhéanann í píblíne saincheaptha féin a roinnt na faisnéise sin chomhthéacs thalamh go dtí bunachar sonraí.
  • Léann próiseas ar ár dhearadh féin an t-eolas comhthéacs, Déanann roinnt cinntí maidir le conas chun an doiciméad sin MOSS oiriúnach laistigh dár IA agus marcanna sé ag baint úsáide as seirbhís gréasáin agus an tsamhail réad.

Ar ndóigh,, Is féidir aon phróiseas uathoibrithe den sórt sin a bheith foirfe, ach a bhuíochas leis an obsessive (agus daoine FAST b'fhéidir dÚsachtach-ach-i-a-maith-bhealach), Is féidir linn a bheith ag troid fíor lámhaigh i bpróiseas ualach mais fíor-éifeachtach go ndéanann níos mó ná a líonadh ach suas le bunachar sonraí SQL le bunch de dhoiciméid éigean-chuardach.

</deireadh>

Liostáil le mo bhlag.

Clibeanna Technorati: , ,

Leave a Reply

Ní thabharfar do sheoladh r-phoist a fhoilsiú. Réimsí riachtanacha atá marcáilte *