D’AQUIN, Mathieu; ELAHI, Salman; MOTTA, Enrico.
Personal Monitoring of Web Information Exchange: Toward Web Lifelogging. Web Science
Conf. 2010, Raleigh, USA, 2010 (p. 1 - 7).
___
Por Fernanda Braga, Felippe Thomaz e Pedro Cordier
Sobre
os autores:
MATHIEU
D’AQUIN é pesquisador do Knowledge Media
Institute (KMI) da Open University
(Reino Unido). Obteve PhD pela University of Nancy, na França, onde trabalhou
em aplicativos real-life de tecnologias
semânticas para a gestão do conhecimento e suporte à decisão no domínio médico.
Como um membro do Projeto
NeOn, seus principais interesses de pesquisa referem-se a técnicas como modularização
e alinhamento para gestão de ontologias, bem como infraestruturas para apoiar o
desenvolvimento da próxima geração de aplicativos da Web Semântica (o motor de
busca de Web Semântica Watson). Como tal, está envolvido no desenvolvimento de
várias aplicações da Web Semântica, abrangendo vários temas (por exemplo,
construção de ontologias, alinhamento de ontologias, busca semântica) e
domínios. Mais recentemente, trabalha os aspectos relacionados com o uso de
tecnologias semânticas e Web Semântica para monitorar e gerenciar informações
pessoais online.
Página
pessoal: http://people.kmi.open.ac.uk/mathieu/
Contato:
m.daquin@open.ac.uk
SALMAN
ELAHI é pesquisador assistente no Knowledge
Media Institute (KMI) da Open
University, Reino Unido. Fez mestrado em Gestão do Conhecimento e
Engenharia na University of Edinburgh,
Reino Unido. Tem interesse por aplicar tecnologias semânticas. Antes de entrar
para o KMI, trabalhava como Engenheiro de Software em projetos relacionados ao
uso de tecnologias semânticas para melhorar os sistemas de busca no domínio das
Freshwater Sciences. No KMI, está
envolvido no Projeto NeOn
no desenvolvimento do Portal de Web Semântica Watson. Recentemente tem
trabalhado no LUCERO, um projeto
ligado aos princípios da Open University,
e no desenvolvimento de infraestrutura básica que consiste de rotinas para
rastreamento e transformação de dados heterogêneos, por exemplo biblioteca
EPrints. Ele também começou seu PhD em tempo parcial focando questões
relacionadas à identidade e gerenciamento de informações pessoais.
Página
pessoal: http://kmi.open.ac.uk/people/member/salman-elahi
Contato:
s.elahi@open.ac.uk
ENRICO
MOTTA é professor de Tecnologias do Conhecimento, no Knowledge Media Institute (KMI) da Open University no Reino Unido. Possui Láurea em Ciência da
Computação pela University of Pisa,
na Itália, e PhD em Inteligência Artificial pela Open University. Sua pesquisa abrange uma variedade de aspectos
relacionados com tecnologias semânticas e engenharia do conhecimento, incluindo
engenharia de ontologias, web semântica, interfaces para sistemas baseados em
conhecimento, integração de dados inteligentes, busca semântica, entre outros.
Em particular, muito de seu trabalho atual se concentra na integração de
tecnologias semânticas e outras, tais como tecnologias web e linguística
computacional, para desenvolver novas soluções para a localização e integração
de informações na web. É autor de mais de 200 publicações, incluindo o livro Reusable Components for Knowledge Modelling
pela IOS Press. É editor-chefe do International
Journal of Human-Computer Studies, e membro do Conselho Editorial do Journal of Web Semantics and IEEE
Intelligent Systems.
Página
pessoal: http://people.kmi.open.ac.uk/motta/cv
Contato:
e.motta@open.ac.uk
Objetivo do paper: D’Aquin et al.
apresentam algumas ferramentas e um experimento em que usam o gerenciamento de
dados semânticos para registrar e monitorar as atividades de troca de
informação por usuários na Web. O experimento foi aplicado por meio de um
sistema lifelogging instalado no
computador pessoal do primeiro autor do paper durante o período de 2.5 meses
ininterruptos. Os autores defendem que os
dados coletados podem ser úteis para o usuário estudar e monitorar seu
comportamento online. Eles descrevem o cálculo de análises básicas (tempo da
atividade, locais da troca etc), a criação de um modelo de avaliação da
confiança percebida que o usuário parece depositar em diferentes sites (com
base nos dados da troca) e a investigação do que se pode aprender sobre o
usuário a partir de seu comportamento de pesquisa.
Argumentação
central:
Num cenário em que mais serviços contam com a internet para se comunicar a
usuários, D’Aquin et al. constatam que é cada vez maior a quantidade de informações
trocada diariamente entre usuários e esses serviços na Web. Soma-se a isso a complexidade
crescente dessas trocas, espraiando-se por vários agentes e incluindo formas
diferentes de interação. Para os autores, essa complexidade dificulta compreender,
estudar e explorar plenamente o intercâmbio online de dados pessoais. Diante do
quadro, eles defendem que é ainda mais importante oferecer aos usuários meios
para monitorar toda a sua gama de atividades na internet, dando-lhes a
capacidade de gerenciar a sua troca de informação. Ferramentas dedicadas, a
exemplo de um sistema lifelogging,
seriam necessárias para fornecer registros igualmente complexos dessas
atividades para consumo do usuário, oferecendo uma visão integrada de
diferentes aspectos de seu comportamento online: produtividade, interesses de
pesquisa, interação social, privacidade etc.
Tópico 1 –
Introdução: O
paper começa com um panorama atual. Para D’Aquin et al. embora cada vez mais a
informação esteja sendo trocada entre usuários e serviços na Web, os mecanismos
que permitem aos usuários manter o controle dessa atividade ainda sãos
limitados. Eles estariam muitas vezes baseados em um modelo de Web 1.0, em que
a interação é restrita a visitar páginas na internet (exemplo, recurso de
histórico incluído na maioria dos navegadores). Os autores vão defender que as
atividades dos usuários na Web são muito mais complexas do que é possível
capturar por esses mecanismos, espraiando-se por vários agentes e incluindo
muitas formas diferentes de interação. Daí ressaltam a importância de fornecer
aos usuários meios pra acompanhar e controlar sua troca de informação.
D’Aquin
et al. vão apresentar um conjunto de ferramentas e um experimento dedicado ao
monitoramento pessoal de atividades na Web. Os autores consideram a vida
completa de usuários online, no que pode ser descrito como o equivalente Web de
um sistema lifelogging. De acordo com
O’Hara et al., eles definem lifelogging
como a ‘recolha indiscriminada de informações sobre a vida e o comportamento de
uma pessoa’. Eles então desenvolvem um sistema para coletar, acompanhar e dar
sentido a informações relacionadas às atividades de um indivíduo na Web. O
sistema é um programa Web Proxy que instalado no computador do usuário
intercepta e grava qualquer comunicação com a rede externa através do protocolo
HTTP. Os resultados e as análises são detalhados ao longo do texto.
Tópico 2 –
Trabalhos relacionados: Neste tópico, os autores descrevem a gama de
ferramentas que já existe para apoiar os usuários no acompanhamento da sua
própria atividade na Web. Relacionadas com a abordagem do paper, D’Aquin et al.
citam o Google Web History e o Attention Recorder, que assumem a forma
de plugins para navegadores populares
da Web e registram acesso a sites a fim de construir um registro das atividades
na Web. Outro exemplo citado é o Rescue
Time que registra as atividades gerais no computador do usuário como forma
de gerir a sua produtividade. No entanto, os autores afirmam que essas
ferramentas ainda são limitadas porque registram apenas uma quantidade limitada
de informações e só permitem o uso dos dados que estão diretamente destinados
pela ferramenta. Eles defendem que as atividades na Web são muito mais
complexas, fragmentadas e, em parte, implícitas. Ferramentas dedicadas a
registrar essa complexidade são, portanto, necessárias e permitem ao usuário
ter uma visão integrada de seu comportamento online.
Tópico 3 –
Tecnologia básica subjacente e definição do experimento: D’Aquin et al.
descrevem dois requisitos principais que uma ferramenta precisa para
representar uma visão suficientemente ampla da transferência de dados pessoais
na Web: primeiro, ser transparente para o usuário e, segundo, registrar
informações tão complexas quanto possível, independente do agente Web
utilizado. No experimento levado a cabo, um mecanismo logging HTTP como um Web Proxy foi instalado no computador do
primeiro autor do paper por um período de 2.5 meses ininterruptos. Desse modo,
qualquer solicitação HTTP saída do computador do usuário (e qualquer resposta a
essa solicitação) era interceptada, registrada e redirecionada para o destino
certo. O resultado foi um recorde de mais de 3 milhões de solicitações HTTP, abrangendo
muitos diferentes agentes e representando 100 milhões de triplas RDF e 9GB de
dados. Os autores ressaltam, porém, que a escalabilidade da ferramenta e sua
capacidade de processar esses dados em tempo real são desafios para trabalhos
futuros.
Tópico 4 –
Monitoramento e análise de vários aspectos das atividades pessoais na Web: O paper destaca
que, graças à ferramenta empregada, o usuário pôde coletar informações ricas e
em grande escala sobre sua atividade na Web, mas que a coleta de dados brutos é
apenas a primeira parte do processo. Nesta seção, D’Aquin et al. apresentam as
análises que foram realizadas sobre a base de dados, desde análises mais
simples à aplicação de um modelo das relações de confiança e dos níveis de
criticidade de dados, e uma investigação do comportamento de pesquisa do
usuário.
Tópico 4.1 –
Análises básicas:
Segundo D’Aquin et al., estatísticas tais como as coletadas por administradores
de sites para monitorar o tráfego nos servidores (por meio do Google Analytics, por exemplo), poderiam
ser de grande valor para um usuário a respeito de seu próprio tráfego na Web,
se a relação fosse invertida. Sob este ponto de vista, os autores apresentam
visualizações computadas na base dos dados coletados no experimento, relativas
a quatro aspectos básicos:
Tempo. Mostra a soma
dos números de solicitações por hora do dia. A forma como a quantidade de
atividade do usuário na Web evolui no tempo pode fornecer indicações úteis a
respeito de seu comportamento e hábitos, não só online, e permitir a
identificação de eventos comuns que acontecem durante um dia típico em sua
vida.
Localização. A visualização
das localizações dos servidores solicitados mostra que a atividade do usuário
tende a concentrar-se em partes específicas do mundo, principalmente Europa e
EUA. As exceções, embora poucas, demonstram como essa informação pode ser
crucial para o usuário se atentar, por exemplo, às diferenças nas leis de
privacidade nestes locais.
Popularidade. As solicitações
realizadas com mais frequência pelo usuário são apresentadas numa ‘nuvem de
tag’. Os autores identificam os sites comumente acessados, aqueles cujos
números de solicitações elevados representam acessos automáticos e ainda os
acessados por efeito colateral de acessar outros sites, portanto sem
consentimento.
Agentes. Mostra os
diferentes agentes por meio dos quais o computador do usuário acessa a internet,
como que provando que a boa parte da atividade do usuário na Web ocorre de
forma implícita. Os autores encontraram 49 diferentes agentes nos dados do
experimento, sendo o navegador da internet apenas o terceiro mais ativo.
A
conclusão é que mesmo as mais simples análises estatísticas podem ajudar o
usuário a compreender melhor seu próprio comportamento online e levar a descobertas
surpreendentes.
Tópico 4.2 –
Observando relações de confiança e criticidade dos dados: Neste ponto,
D’Aquin et al. se concentram em extrair dos dados coletados no experimento um
modelo da confiança percebida que é atribuída aos sites acessados pelo usuário
e da criticidade dos dados trocados nestes sites. Eles consideram que a
confiança é um elemento central de qualquer interação social e, portanto, de
qualquer troca na Web. Dada a sua importância para qualquer comunicação na Web
2.0, os autores descrevem com detalhes as etapas de derivação de um modelo da
confiança percebida. Segundo eles, as noções de confiança e criticidade são altamente
interdependentes, portanto se o usuário divulga uma informação que considera
crítica em um determinado site, isso parece indicar um alto nível de confiança
nele. O objetivo de calcular essas medidas seria permitir ao usuário explorá-las,
comparando com sua própria visão. Essa metodologia mostrou-se valiosa na identificação
de situações interessantes ou possivelmente problemáticas, o que ressalta seu
potencial para tornar o usuário mais consciente de seu comportamento implícito,
apoiando-o na implementação de uma gestão mais informada de sua própria
privacidade.
Tópico 4.3 –
Investigando comportamento de pesquisa: Partindo do pressuposto que a pesquisa
é uma das atividades explícitas mais comuns que os usuários realizam online,
D’Aqui et al. defendem que analisar a forma como o usuário utiliza os motores
de busca disponíveis na Web (a exemplo do Google.com)
pode ajudar a obter informações sobre seu comportamento consciente, interesses
etc. No experimento, eles constataram que uma proporção grande das consultas
realizadas foram duplicadas ou tinham sido reentradas várias vezes durante o
período e que apenas uma parte das consultas levou o usuário a seguir um ou
mais resultados. Assim, os autores concluem que a pesquisa não é considerada
uma atividade exploratória por este usuário, mas uma maneira de localizar
recursos já conhecidos.
Outro
elemento considerado na análise é a lista de palavras-chave pesquisadas pelo
usuário, que segundo os autores pode demonstrar áreas específicas de relevância
para ele. O resultado é representado por meio de uma ‘nuvem de tag’e comprova
relação com conceitos já conhecidos e diretamente ligados a atividade
profissional do usuário. Aprofundando a análise, os autores usam o serviço SemanticProxy para encontrar tópicos
mais amplos de interesse para o usuário. Os resultados também não são surpreendentes,
mas ajudam a caracterizá-lo ainda mais em termos de seus interesses. Eles
acreditam que fornecer tal perfil para ser explorado pelo próprio usuário pode
ser valioso e contribuir, por exemplo, para sua relação com pessoas de interesses
semelhantes em aplicativos sociais.
Tópico 5 – Discussão: aprofundamento: No paper, D’Aquin et al. descreveram como recolheram um registro
semântico da atividade de um usuário na Web, com a finalidade de ajudar este
usuário a entender melhor seu comportamento e troca de informações online. O
experimento realizado mostra que os dados coletados representam uma
‘caixa-preta’ da vida Web do usuário, auxiliando-o para fins de monitoramento
pessoal, gestão de informação pessoal ou privacidade. Estudos semelhantes já são
realizados sob a perspectiva dos sites, mas os autores destacam como eles podem
ser explorados pelo usuário. Eles sugerem o refinamento dos estudos
estendendo-os a maneiras diferentes de investigar os dados e integrando esses
dados com fontes externas de informação. Para concluir, ressaltam que o
experimento apresentado é limitado no sentido de que incide sobre um
determinado usuário. Como trabalho futuro, eles pretendem investigar a
comparação dos mesmos tipos de análises para grupos de usuários de diferentes
origens, interesses e usos Web, entendendo aspectos comuns em seus lifelogs Web.
Nenhum comentário:
Postar um comentário