Scelte rapide:
  1. Cerca
  2. Utilità
  3. Navigazione principale
  4. Contenuto
  5. Approfondimenti
  6. Navigazione di pagina
  7. footer

B Human -Profitable Innovation

Voi siete qui:

Indexing and Search

L'indicizzazione e la ricerca (indexing and search) delle informazioni in internet (web search) e nelle intranet rappresenta uno dei nodi strategici nello sviluppo di software e nell'integrazione di sistemi finalizzati ad ottimizzare la gestione del patrimonio informativo di un'organizzazione. È per questo che abbiamo concentrato le nostre attività di ricerca e sviluppo anche nella direzione della search engineering.

Il frutto più visibile di queste attività è sicuramente rappresentato da Jasone, il search engine di BHuman per la correlazione di contenuti multiformato.
Jasone è un sistema di indexing and search full text basato su tecnologia Java e su prodotti open source (Lucene).

Le soluzioni commerciali di web search enterprise offrono funzionalità raffinate di knowledge management e alta scalabilità, ma a costi che crescono molto in fretta.

Jasone a costi ridotti offre:

  • funzionalità ricche e complete – specialmente per gli usi pubblici
  • prestazioni eccellenti
  • integrabilità agevolissima in architetture esistenti
  • margini di personalizzazione elevati
  • le garanzie di affidabilità fornite dal suo engine Lucene, adottato in tutto il mondo

Jasone permette:

  • ricerca e indicizzazione (anche full text search) nelle intranet aziendali
  • ricerca e indicizzazione nei siti web esterni all’azienda (web search)
  • ricerca e indicizzazione in altre fonti dati (es. database aziendali)

Con Jasone è possibile indicizzare e ricercare documenti in differenti formati, tra cui:

  • ricerca e indicizzazione full text per file doc (Microsoft Word)
  • ricerca e indicizzazione full text per file XLS (Microsoft Excel)
  • ricerca e indicizzazione full text per file PPT (Microsoft PowerPoint)
  • ricerca e indicizzazione full text per file RTF (rich text format)
  • ricerca e indicizzazione full text per file PDF (Adobe Portable Format)
  • ricerca e indicizzazione full text per file XML
  • ricerca e indicizzazione full text per file HTML
  • ricerca e indicizzazione full text per file TXT
  • ricerca e indicizzazione full text per file OpenOffice
  • ricerca e indicizzazione full text per file ZIP (archivio)
  • ricerca e indicizzazione per file MP3
  • ricerca e indicizzazione full text per file VCard
  • ricerca e indicizzazione full text per file Latex
  • ricerca e indicizzazione per file JavaBeans

Jasone: caratteristiche principali

Jasone si compone di tre elementi principali:

  • crawler: esplora i siti selezionati per indicizzarne le pagine e i documenti contenuti (html, doc, pdf, XML)
  • indicizzatore: estrae i contenuti dai documenti raccolti dal crawler e li inserisce in un’apposita base dati
  • searcher: può eseguire in parallelo centinaia di ricerche full text al minuto sulla base dati precedentemente definita, fornendo risultati in XML.

Il crawler

Il crawler ha il compito di esplorare le fonti dati scelte per indicizzare le pagine e i documenti contenuti.

Le caratteristiche principali sono:

  • acquisizione degli URL dei siti da esplorare da un apposito file di configurazione XML
  • possibilità di esplorare un numero elevatissimo di siti
  • scheduling dei job di crawling liberamente configurabile
  • possibilità di lanciare job di crawling su richiesta
  • ogni sito può essere esplorato con frequenze differenti (frequenza oraria, giornaliera, settimanale)
  • periodo di validità dei dati raccolti differente da sito a sito
  • possibilità di esplorare siti interi o singole porzioni di essi
  • scarsa invasività del crawler che calibra la velocità delle richieste secondo la velocità delle risposte
  • il crawling può lavora in parallelo su decine di host: questo valore varia in funzione della banda disponibile e delle risorse della macchina del crawler
  • esplorazione simultanea di decine di host (limitazioni date solo da potenza hardware e banda)

L'indicizzatore

L'indicizzatore estrae i contenuti dai documenti raccolti dal crawler e li inserisce in un’apposita base dati.

Caratteristiche di rilievo:

  • supporta il multilingua (incluso il cinese)
  • il sistema di indicizzazione può ricevere dati da più fonti: Jasone crawler, Jasone FTP server ed eventualmente altri (es.: crawler specifici per l'estrazioni di dati da db)
  • l'interfacciamento con i sistemi crawling è asincrono (basato sullo standard Java JMS), per aumentare la scalabilità del prodotto
  • possono essere indicizzati file di differente natura: html, pdf, formati Microsoft Office (word, Excel, Powerpoint), formati OpenOffice, file testuali, vCard, Latex, xml
  • i file xml sono configurabili, cioè possono essere recepiti file xml con sintassi differente
  • per ogni formato è possibile stabilire opportuni metadati: title, author, keywords, content...
  • per ogni formato è possibile stabilire un coefficiente per influenzare la pertinenza del risultato
  • per ogni metadato di ogni formato è possibile stabilire un coefficiente per influenzare la pertinenza del risultato
  • aggiornamento dell'indice di ricerca in background, disaccoppiato dal componente di search
  • indici frazionabili e configurabili.

Funzionalità estensibili su richiesta:

  • modificare tramite un coefficiente le pertinenze dei risultati in funzione, ad esempio, del sito di provenienza del documento
  • attribuire maggiore peso a determinati termini piuttosto che ad altri.

Il searcher

Il searcher, il vero e proprio motore di ricerca, può eseguire in parallelo centinaia di ricerche full text al minuto sulla base dati precedentemente definita, fornendo risultati in XML.

Funzionalità principali:

  • sistema di ricerca parallelo ad alte prestazioni
    • in una attuale installazione eroga 500 query/secondo su un insieme di 150 siti per un totale di 900 MB di indice
  • viene interogato tramite protocollo XML over HTTP
  • supporta la paginazione dei risultati
  • espone l'indice di pertinenza dei risultati
  • consente l'ordinamento dei risultati per pertinenza
  • espone un estratto del documento trovato (abstract)
  • evidenzia nell'estratto i termini trovati
  • il trattamento dei metadati nei risultati è configurabile
  • funziona secondo la sintassi di query di Lucene
  • il sistema che effettua l'interrogazione del sistema di Search ha la facoltà di aggiungere delle restrizioni alle query effettuate dall'utente
  • caching delle query
  • le ricerche possono essere effettuate su un singolo indice o su più indici contemporaneamente
  • la ricerca può tener conto della prossimità dei termini.

 

 

Volete saperne di più?
Contattateci oggi stesso!