Сум завршена ден 2 на брза обука во сончево Needham, М-р, и јас сум преполн со идеи (кој сите добри обука класи направам за да ме). One particular aspect of FAST has me thinking and I wanted to write it down while it was still fresh and normal day-to-day "stuff" потисна да биде надвор од мојата глава.
Ние SharePoint WSS 3.0 / Мос имплементатори често се соочуваат со тешка проблем со било разумно големина SharePoint проект: Како ние да ги добиете сите untagged податоци натоварена во SharePoint таква што сето тоа се вклопува во рамките на нашиот совршено дизајнирани информациската архитектура?
Доволно често, ова не е толку тешко проблем, бидејќи ние самите опсегот од мака: "We don’t care about anything more than 3 months old." "We’ll handle all that old stuff with keyword search and going-forward we’ll do it the RIGHT way…" Etc.
Но, what happens if we can’t scope ourselves out of trouble and we’re looking at 10’s of thousands or 100’s of thousands (или дури и милиони) на docs — вчитување и означување на која е нашата побожните желба?
БРЗО може да биде одговор.
Пребарување процес брзо вклучува многу подвижни делови, но еден поедноставен гледиште е ова:
- А процесот Роботот изгледа за содржина.
- Утврди содржината и рацете, го исклучувам на брокер процес кој управува со еден базен на документот процесори.
- Брокер процес раце од едната на документот процесори.
- Во документот процесор анализира документ и преку нафтоводот процес, анализира bejeezus надвор од документот и раце, го исклучувам на индекс градител тип процес.
На ѕвезда БРЗО, we have a lot of control over the document processing pipeline. We can mix and match about 100 гасовод компоненти и, повеќето интересно, we can write our own components. Like I say, FAST is analyzing documents every which way but Sunday and it compiles a lot of useful information about those documents. Those crazy FAST people are clearly insane and obsessive about document analysis because they have tools and/or strategies to REALLY categorize documents.
Така … користење на Брз во комбинација со нашите сопствени гасоводот компонента, we can grab all that context information from FAST and feed it back to MOSS. It might go something like this:
- Документ се храни во брзо од Мос.
- Нормално лудо опсесивно Брз документ парсирање и категоризација се случува.
- Нашите сопствени гасоводот компонента капки некои од тој контекст информации исклучување на базата на податоци.
- А процесот на нашиот сопствен дизајн се наведува во контекст информации, прави некои одлуки за тоа како да се вклопи дека Мос документ во рамките на нашите IA и го означува тоа со користење на веб сервис и објектот модел.
Се разбира, нема такви автоматизиран процес може да биде совршен, но благодарение на опсесивно (а можеби и лудо-но-во-а-добар начин БРЗО луѓе), ние може да има вистинска борба застрелан во вистински ефективни масовно оптоварување процес кој не повеќе од само се наполни салата SQL база на податоци со еден куп на документи едвај-пребарува.
</крајот>