Características

Pesquisa e extracção de informação

A tecnologia de pesquisa e extracção de informação da Priberam vai bastante mais longe do que aquela que é possível encontrar noutros sistemas disponíveis no mercado. Nestes sistemas, a indexação e a pesquisa são feitas considerando apenas as palavras e as estatísticas da sua ocorrência, devidamente filtradas por uma lista de palavras (stop words) convenientemente ignoradas. Alguns destes sistemas incluem ainda um lematizador (stemmer), de maior ou menor qualidade, que identifica as palavras sem flexão, permitindo fazer uma correspondência entre flexões utilizadas na informação indexada e nas pesquisas efectuadas, por exemplo, entre singulares e plurais, masculinos e femininos ou formas verbais de um mesmo verbo.

Os recursos linguísticos para português europeu e português do Brasil de que a Priberam dispõe permitem uma análise muito mais profunda da informação indexada, bem como das pesquisas efectuadas, recorrendo à análise sintáctica, a dicionários de sinónimos e a uma ontologia onde se encontram codificadas as relações semânticas entre cerca de 200 000 palavras e expressões. Só desta forma é possível encontrar a informação mais relevante para uma determinada pesquisa, mesmo que as palavras pesquisadas ou a pergunta formulada não incluam nenhuma palavra em comum com o documento apresentado.

Nos resultados das pesquisas, além do título e de uma hiperligação para o texto completo, é apresentado um excerto do documento (snippet), extraído de forma automática. Tanto no título como no excerto são realçadas não só as palavras constantes da pesquisa como os sinónimos ou palavras semanticamente relacionadas. Estas últimas podem ser realçadas de forma diferente para evidenciar que não eram mencionadas na pesquisa efectuada.

O motor de pesquisa da Priberam pode ainda ter em conta a actualidade da informação, atribuindo maior relevância à informação mais recente. Esta é uma característica fundamental, por exemplo, em serviços de notícias.

As pesquisas podem ser restringidas temporalmente, quer através de um interface próprio (controlo do tipo calendário), quer através do que é digitado na caixa de pesquisa (ver a seguir).

Resposta automática a perguntas

Quando são feitas perguntas em língua natural (por exemplo, “Quem é Cavaco Silva?” ou “Qual é a taxa de inflação?”), detectadas através da análise da pesquisa efectuada, o motor de resposta automática a perguntas é accionado, devolvendo uma resposta e o excerto em que ela foi encontrada, além de assinalar outras potenciais respostas.

O sistema de resposta a perguntas da Priberam está preparado para responder a perguntas em língua natural de diversos tipos, sendo os melhores resultados obtidos para perguntas factuais (perguntas que procuram obter um nome, uma localização, um facto, uma data, etc.). As perguntas podem também incluir restrições temporais (por exemplo “Quem recebeu o Nobel da Literatura em 1998?”).

As respostas podem ser realçadas nos excertos apresentados na lista de resultados, tal como as palavras que constam da pergunta e os seus sinónimos ou palavras relacionadas.

Extracção de entidades

Complementando a lista dos resultados mais relevantes para uma determinada pesquisa, o motor de pesquisa da Priberam devolve ainda, de forma automática, um conjunto de nomes de pessoas, organizações ou lugares contextualizados que permitem explorar, com um simples clique, informação relacionada ou restringir a pesquisa, limitando-a ao subconjunto de documentos que inclui essa entidade.

Este mecanismo permite a descoberta de novas informações ou de relações por vezes não evidentes entre assuntos, pessoas, organizações e/ou lugares, potenciando a navegação em conteúdos relacionados.

Sugestões de correcção

Diversos estudos demonstram que mais de 10% das pesquisas efectuadas em motores de pesquisa contêm erros. O motor de pesquisa da Priberam é capaz de detectar estes erros e sugerir pesquisas alternativas, tendo em conta não só os recursos para a língua portuguesa (léxicos), mas também a informação indexada, já que a probabilidade de cometer erros na escrita de nomes estrangeiros é ainda maior.

Integração de conteúdos

Os resultados de pesquisa podem integrar conteúdos de diferentes fontes (pesquisa federada).

Personalização

O processo de indexação pode ser parametrizado em função do tipo de informação indexada e da forma como se encontra estruturada. Esta parametrização permite optimizar os resultados da pesquisa em função de uma estrutura de dados específica. Também as sugestões para as pesquisas têm em conta a informação indexada.

O tempo entre indexações incrementais é configurado de acordo com a taxa de refrescamento da informação (por exemplo, minuto a minuto).

O sistema devolve os resultados em XML (resultados da pesquisa, entidades relacionadas, eventuais sugestões de correcção, potenciais respostas, informação a realçar), permitindo assim uma integração total em termos de apresentação dos resultados.

Requisitos

O motor de pesquisa da Priberam expõe um web service residente num Windows Server 2003 com IIS.

O dimensionamento do servidor em termos de discos (capacidade e velocidade), memória e CPU depende da quantidade de informação a indexar e do número de pesquisas por segundo.

Fontes de dados

O motor de pesquisa da Priberam indexa, de base, informação em ficheiros e bases de dados nos formatos de texto ANSI e Unicode, HTML e XML. Para outros formatos de ficheiros, contactar a Priberam.

Licenciamento

O licenciamento do motor de pesquisa inclui as actualizações de software e suporte gratuitos durante um ano.

Depois desse período, o suporte é feito mediante contratos de manutenção de software.

A Priberam também pode fornecer o equipamento com todo o software necessário pré-instalado e configurado.