Descrição
O dataset de Exposição e Perfil na Mídia retorna informações capturadas de fontes de notícias públicas da internet, que são associadas com as entidades consultadas a partir de um processo de inferência contextual que considera diferentes elementos de dados disponíveis. São entregues alguns indicadores globais, que demonstram o nível geral de exposição de uma entidade na mídia e a natureza dessa exposição, bem como os conteúdos detalhados identificados para a entidade pesquisada. Para cada contéudo, é retornada ainda uma lista de comentários associados, bem como o resultado da análise de sentimento sobre o mesmo.
Devido ao volume de informações que pode ser retornado por uma consulta, esse dataset trabalha com o conceito de paginação. Ao se realizar uma consulta, junto com o primeiro lote de resultados, é retornado um token que pode ser utilizado para se requisitar a próxima página de resultados da consulta, sem custo adicional.
Origem da Informação
As informações de exposição e perfil na mídia tem como origem os diferentes sites de notícias e conteúdo noticioso (como blogs e colunas de opinião) publicados de forma aberta e sem restrição de acesso na internet. Cada item de notícia recuperado tem a referência da fonte que publicou o mesmo, e o link para a publicação original.
Tabela de preços para esse dataset
Consultas Realizadas no Mês | Valor por consulta |
---|---|
1 - 10000 | R$ 0,090 |
10001 - 50000 | R$ 0,085 |
50001 - 100000 | R$ 0,081 |
100001 - 500000 | R$ 0,077 |
500001 - 1000000 | R$ 0,073 |
1000001 - 5000000 | R$ 61,000.00 (preço fixo) |
5000001 e acima | Entre em contato |
Parâmetros de consulta
A tabela abaixo detalha os campos aceitos na consulta a este dataset.
Campo | Descrição | Valores Possíveis | Tipo de Campo |
---|---|---|---|
doc | Documento de identificação | CPF | 🛑 Obrigatório |
keywords | Permite a filtragem dos conteúdos retornados com base em um conjunto de palavras-chave definido pelo usuário. | Qualquer texto | ℹ️ Opcional |
keywords_operator | Define a lógica de combinação entre as palavras-chave inseridas no campo "keywords". Use "AND" para retornar apenas resultados que contenham todas as palavras especificadas. Use "OR" para retornar resultados que contenham qualquer uma das palavras especificadas. Caso nenhum valor seja inserido nesse campo, o padrão é o operador "OR" | ["OR", "AND"] | ℹ️ Opcional |
birthdate | Data de Nascimento | yyyy-MM-dd | ℹ️ Opcional |
dateformat | Formato da Data | yyyy-MM-dd, dd/MM/yyyy | ℹ️ Opcional |
Clique aqui para saber mais sobre os parâmetros de consulta da Plataforma de Dados.
Abaixo está um exemplo de como realizar a chamada apenas com os parâmetros obrigatórios:
{
"Datasets": "media_profile_and_exposure",
"q": "doc{CPF}"
}
Filtros
Campo | Descrição do filtro | Tipo do filtro | Valores Possíveis do Filtro |
---|---|---|---|
title | Título da notícia | Contém | Qualquer texto |
sourcename | Nome da fonte responsável pela notícia | Contém | Qualquer texto |
categories | Categoria da notícia | Contém | Qualquer texto |
label | Label de análise de sentimento da notícia, podendo filtrar mais de um com a sintaxe label=[ NEUTRAL, NEGATIVE, SLIGHTLY_NEGATIVE ] , por exemplo. | Igual | NEGATIVE, POSITIVE, NEUTRAL, UNDEFINED, POLARIZED, SLIGHTLY_POSITIVE, SLIGHTLY_NEGATIVE |
Abaixo está um exemplo de como utilizar o parâmetro .filter(nome_do_campo=XXXX)
{
"Datasets": "media_profile_and_exposure.filter(title=Qualquer texto)",
"q": "doc{CPF}"
}
Limite
Para utilizar o campo de limite basta utilizar o parâmetro .limit(x)
{
"Datasets": "media_profile_and_exposure.limit(10)",
"q": "doc{CPF}"
}
Paginação
A paginação do dataset pode ser feita através do parâmetro .next(x), utilizando o ID retornado pela requisição anterior e um parâmetro de consulta q com o mesmo parâmetro inserido na consulta original, conforme o exemplo abaixo:
{
"Datasets": "media_profile_and_exposure.next(Id da próxima página)",
"q": "doc{CPF}"
}
Descrição dos indicadores retornados
Indicador | Descrição |
---|---|
MediaExposureLevel | É a inferência do nível de exposição da entidade nos principais portais de comunicação baseado no volume total de notícias dos últimos 6 meses (por padrão), ou seja, estamos analisando o quão volumosa foi a presença da entidade na mídia no período definido. Tendo um ranking de A até H, do maior para o menor (ou desconhecido) nível de exposição |
CelebrityLevel | É a inferência do nível de celebridade da entidade nos principais portais de comunicação baseado na média de notícias em que a entidade aparece mensalmente nos últimos 6 meses (por padrão), ou seja, estamos analisando a frequência da presença da entidade na mídia. Tendo um ranking de A até H, do maior para o menor (ou desconhecido) nível de celebridade |
UnpopularityLevel | É a inferência do nível de impopularidade da entidade nos principais portais de comunicação. Nesse inferência utilizamos informações como:
Com esses valores geramos uma média ponderada de impopularidade e distribuímos esse valor em um Ranking de A até H, onde A seria o nível mais alto de impopularidade, enquanto H seria o nível mais baixo (ou desconhecido) de impopularidade |
Sobre os labels de análise de sentimento
Nome do label | Descrição do label |
---|---|
NEGATIVE | Quando o modelo sinaliza a predominância do sentimento negativo |
POSITIVE | Quando o modelo sinaliza a predominância do sentimento positivo |
NEUTRAL | Quando o modelo não sinaliza nenhuma predominância de sentimento |
UNDEFINED | Quando o modelo não conseguiu inferir sentimentos sobre a notícia |
POLARIZED | Quando o modelo sinaliza fortemente tanto sentimentos negativos quanto positivos |
SLIGHTLY_POSITIVE | Quando o modelo sinaliza tanto sentimentos neutros quanto positivos |
SLIGHTLY_NEGATIVE | Quando o modelo sinaliza tanto sentimentos neutros quanto negativos |
Retorno das Notícias
As notícias retornadas neste dataset são baseadas no nome encontrado para a entidade consultada e as chaves de busca inseridas no parâmetro opcional keywords. Caso o nome seja muito comum ou curto, podem ser retornadas notícias que não são relacionadas ao documento especificado. O que também irá causar variações nos indicadores retornados.