segunda-feira, 7 de maio de 2012

Fichamento - Autoapresentação e gerenciamento de impressões em redes sociais digitais 3/3


D’AQUIN, Mathieu; ELAHI, Salman; MOTTA, Enrico. Personal Monitoring of Web Information Exchange: Toward Web Lifelogging. Web Science Conf. 2010, Raleigh, USA, 2010 (p. 1 - 7).

___

Por Fernanda Braga, Felippe Thomaz e Pedro Cordier

Sobre os autores:
MATHIEU D’AQUIN é pesquisador do Knowledge Media Institute (KMI) da Open University (Reino Unido). Obteve PhD pela University of Nancy, na França, onde trabalhou em aplicativos real-life de tecnologias semânticas para a gestão do conhecimento e suporte à decisão no domínio médico. Como um membro do Projeto NeOn, seus principais interesses de pesquisa referem-se a técnicas como modularização e alinhamento para gestão de ontologias, bem como infraestruturas para apoiar o desenvolvimento da próxima geração de aplicativos da Web Semântica (o motor de busca de Web Semântica Watson). Como tal, está envolvido no desenvolvimento de várias aplicações da Web Semântica, abrangendo vários temas (por exemplo, construção de ontologias, alinhamento de ontologias, busca semântica) e domínios. Mais recentemente, trabalha os aspectos relacionados com o uso de tecnologias semânticas e Web Semântica para monitorar e gerenciar informações pessoais online.

SALMAN ELAHI é pesquisador assistente no Knowledge Media Institute (KMI) da Open University, Reino Unido. Fez mestrado em Gestão do Conhecimento e Engenharia na University of Edinburgh, Reino Unido. Tem interesse por aplicar tecnologias semânticas. Antes de entrar para o KMI, trabalhava como Engenheiro de Software em projetos relacionados ao uso de tecnologias semânticas para melhorar os sistemas de busca no domínio das Freshwater Sciences. No KMI, está envolvido no Projeto NeOn no desenvolvimento do Portal de Web Semântica Watson. Recentemente tem trabalhado no LUCERO, um projeto ligado aos princípios da Open University, e no desenvolvimento de infraestrutura básica que consiste de rotinas para rastreamento e transformação de dados heterogêneos, por exemplo biblioteca EPrints. Ele também começou seu PhD em tempo parcial focando questões relacionadas à identidade e gerenciamento de informações pessoais.

ENRICO MOTTA é professor de Tecnologias do Conhecimento, no Knowledge Media Institute (KMI) da Open University no Reino Unido. Possui Láurea em Ciência da Computação pela University of Pisa, na Itália, e PhD em Inteligência Artificial pela Open University. Sua pesquisa abrange uma variedade de aspectos relacionados com tecnologias semânticas e engenharia do conhecimento, incluindo engenharia de ontologias, web semântica, interfaces para sistemas baseados em conhecimento, integração de dados inteligentes, busca semântica, entre outros. Em particular, muito de seu trabalho atual se concentra na integração de tecnologias semânticas e outras, tais como tecnologias web e linguística computacional, para desenvolver novas soluções para a localização e integração de informações na web. É autor de mais de 200 publicações, incluindo o livro Reusable Components for Knowledge Modelling pela IOS Press. É editor-chefe do International Journal of Human-Computer Studies, e membro do Conselho Editorial do Journal of Web Semantics and IEEE Intelligent Systems.


Objetivo do paper: D’Aquin et al. apresentam algumas ferramentas e um experimento em que usam o gerenciamento de dados semânticos para registrar e monitorar as atividades de troca de informação por usuários na Web. O experimento foi aplicado por meio de um sistema lifelogging instalado no computador pessoal do primeiro autor do paper durante o período de 2.5 meses ininterruptos.  Os autores defendem que os dados coletados podem ser úteis para o usuário estudar e monitorar seu comportamento online. Eles descrevem o cálculo de análises básicas (tempo da atividade, locais da troca etc), a criação de um modelo de avaliação da confiança percebida que o usuário parece depositar em diferentes sites (com base nos dados da troca) e a investigação do que se pode aprender sobre o usuário a partir de seu comportamento de pesquisa.

Argumentação central: Num cenário em que mais serviços contam com a internet para se comunicar a usuários, D’Aquin et al. constatam que é cada vez maior a quantidade de informações trocada diariamente entre usuários e esses serviços na Web. Soma-se a isso a complexidade crescente dessas trocas, espraiando-se por vários agentes e incluindo formas diferentes de interação. Para os autores, essa complexidade dificulta compreender, estudar e explorar plenamente o intercâmbio online de dados pessoais. Diante do quadro, eles defendem que é ainda mais importante oferecer aos usuários meios para monitorar toda a sua gama de atividades na internet, dando-lhes a capacidade de gerenciar a sua troca de informação. Ferramentas dedicadas, a exemplo de um sistema lifelogging, seriam necessárias para fornecer registros igualmente complexos dessas atividades para consumo do usuário, oferecendo uma visão integrada de diferentes aspectos de seu comportamento online: produtividade, interesses de pesquisa, interação social, privacidade etc.

Tópico 1 – Introdução: O paper começa com um panorama atual. Para D’Aquin et al. embora cada vez mais a informação esteja sendo trocada entre usuários e serviços na Web, os mecanismos que permitem aos usuários manter o controle dessa atividade ainda sãos limitados. Eles estariam muitas vezes baseados em um modelo de Web 1.0, em que a interação é restrita a visitar páginas na internet (exemplo, recurso de histórico incluído na maioria dos navegadores). Os autores vão defender que as atividades dos usuários na Web são muito mais complexas do que é possível capturar por esses mecanismos, espraiando-se por vários agentes e incluindo muitas formas diferentes de interação. Daí ressaltam a importância de fornecer aos usuários meios pra acompanhar e controlar sua troca de informação.

D’Aquin et al. vão apresentar um conjunto de ferramentas e um experimento dedicado ao monitoramento pessoal de atividades na Web. Os autores consideram a vida completa de usuários online, no que pode ser descrito como o equivalente Web de um sistema lifelogging. De acordo com O’Hara et al., eles definem lifelogging como a ‘recolha indiscriminada de informações sobre a vida e o comportamento de uma pessoa’. Eles então desenvolvem um sistema para coletar, acompanhar e dar sentido a informações relacionadas às atividades de um indivíduo na Web. O sistema é um programa Web Proxy que instalado no computador do usuário intercepta e grava qualquer comunicação com a rede externa através do protocolo HTTP. Os resultados e as análises são detalhados ao longo do texto.

Tópico 2 – Trabalhos relacionados: Neste tópico, os autores descrevem a gama de ferramentas que já existe para apoiar os usuários no acompanhamento da sua própria atividade na Web. Relacionadas com a abordagem do paper, D’Aquin et al. citam o Google Web History e o Attention Recorder, que assumem a forma de plugins para navegadores populares da Web e registram acesso a sites a fim de construir um registro das atividades na Web. Outro exemplo citado é o Rescue Time que registra as atividades gerais no computador do usuário como forma de gerir a sua produtividade. No entanto, os autores afirmam que essas ferramentas ainda são limitadas porque registram apenas uma quantidade limitada de informações e só permitem o uso dos dados que estão diretamente destinados pela ferramenta. Eles defendem que as atividades na Web são muito mais complexas, fragmentadas e, em parte, implícitas. Ferramentas dedicadas a registrar essa complexidade são, portanto, necessárias e permitem ao usuário ter uma visão integrada de seu comportamento online.

Tópico 3 – Tecnologia básica subjacente e definição do experimento: D’Aquin et al. descrevem dois requisitos principais que uma ferramenta precisa para representar uma visão suficientemente ampla da transferência de dados pessoais na Web: primeiro, ser transparente para o usuário e, segundo, registrar informações tão complexas quanto possível, independente do agente Web utilizado. No experimento levado a cabo, um mecanismo logging HTTP como um Web Proxy foi instalado no computador do primeiro autor do paper por um período de 2.5 meses ininterruptos. Desse modo, qualquer solicitação HTTP saída do computador do usuário (e qualquer resposta a essa solicitação) era interceptada, registrada e redirecionada para o destino certo. O resultado foi um recorde de mais de 3 milhões de solicitações HTTP, abrangendo muitos diferentes agentes e representando 100 milhões de triplas RDF e 9GB de dados. Os autores ressaltam, porém, que a escalabilidade da ferramenta e sua capacidade de processar esses dados em tempo real são desafios para trabalhos futuros.

Tópico 4 – Monitoramento e análise de vários aspectos das atividades pessoais na Web: O paper destaca que, graças à ferramenta empregada, o usuário pôde coletar informações ricas e em grande escala sobre sua atividade na Web, mas que a coleta de dados brutos é apenas a primeira parte do processo. Nesta seção, D’Aquin et al. apresentam as análises que foram realizadas sobre a base de dados, desde análises mais simples à aplicação de um modelo das relações de confiança e dos níveis de criticidade de dados, e uma investigação do comportamento de pesquisa do usuário.

Tópico 4.1 – Análises básicas: Segundo D’Aquin et al., estatísticas tais como as coletadas por administradores de sites para monitorar o tráfego nos servidores (por meio do Google Analytics, por exemplo), poderiam ser de grande valor para um usuário a respeito de seu próprio tráfego na Web, se a relação fosse invertida. Sob este ponto de vista, os autores apresentam visualizações computadas na base dos dados coletados no experimento, relativas a quatro aspectos básicos:

Tempo. Mostra a soma dos números de solicitações por hora do dia. A forma como a quantidade de atividade do usuário na Web evolui no tempo pode fornecer indicações úteis a respeito de seu comportamento e hábitos, não só online, e permitir a identificação de eventos comuns que acontecem durante um dia típico em sua vida.

Localização. A visualização das localizações dos servidores solicitados mostra que a atividade do usuário tende a concentrar-se em partes específicas do mundo, principalmente Europa e EUA. As exceções, embora poucas, demonstram como essa informação pode ser crucial para o usuário se atentar, por exemplo, às diferenças nas leis de privacidade nestes locais.

Popularidade. As solicitações realizadas com mais frequência pelo usuário são apresentadas numa ‘nuvem de tag’. Os autores identificam os sites comumente acessados, aqueles cujos números de solicitações elevados representam acessos automáticos e ainda os acessados por efeito colateral de acessar outros sites, portanto sem consentimento.

Agentes. Mostra os diferentes agentes por meio dos quais o computador do usuário acessa a internet, como que provando que a boa parte da atividade do usuário na Web ocorre de forma implícita. Os autores encontraram 49 diferentes agentes nos dados do experimento, sendo o navegador da internet apenas o terceiro mais ativo.

A conclusão é que mesmo as mais simples análises estatísticas podem ajudar o usuário a compreender melhor seu próprio comportamento online e levar a descobertas surpreendentes.

Tópico 4.2 – Observando relações de confiança e criticidade dos dados: Neste ponto, D’Aquin et al. se concentram em extrair dos dados coletados no experimento um modelo da confiança percebida que é atribuída aos sites acessados pelo usuário e da criticidade dos dados trocados nestes sites. Eles consideram que a confiança é um elemento central de qualquer interação social e, portanto, de qualquer troca na Web. Dada a sua importância para qualquer comunicação na Web 2.0, os autores descrevem com detalhes as etapas de derivação de um modelo da confiança percebida. Segundo eles, as noções de confiança e criticidade são altamente interdependentes, portanto se o usuário divulga uma informação que considera crítica em um determinado site, isso parece indicar um alto nível de confiança nele. O objetivo de calcular essas medidas seria permitir ao usuário explorá-las, comparando com sua própria visão. Essa metodologia mostrou-se valiosa na identificação de situações interessantes ou possivelmente problemáticas, o que ressalta seu potencial para tornar o usuário mais consciente de seu comportamento implícito, apoiando-o na implementação de uma gestão mais informada de sua própria privacidade.

Tópico 4.3 – Investigando comportamento de pesquisa: Partindo do pressuposto que a pesquisa é uma das atividades explícitas mais comuns que os usuários realizam online, D’Aqui et al. defendem que analisar a forma como o usuário utiliza os motores de busca disponíveis na Web (a exemplo do Google.com) pode ajudar a obter informações sobre seu comportamento consciente, interesses etc. No experimento, eles constataram que uma proporção grande das consultas realizadas foram duplicadas ou tinham sido reentradas várias vezes durante o período e que apenas uma parte das consultas levou o usuário a seguir um ou mais resultados. Assim, os autores concluem que a pesquisa não é considerada uma atividade exploratória por este usuário, mas uma maneira de localizar recursos já conhecidos.

Outro elemento considerado na análise é a lista de palavras-chave pesquisadas pelo usuário, que segundo os autores pode demonstrar áreas específicas de relevância para ele. O resultado é representado por meio de uma ‘nuvem de tag’e comprova relação com conceitos já conhecidos e diretamente ligados a atividade profissional do usuário. Aprofundando a análise, os autores usam o serviço SemanticProxy para encontrar tópicos mais amplos de interesse para o usuário. Os resultados também não são surpreendentes, mas ajudam a caracterizá-lo ainda mais em termos de seus interesses. Eles acreditam que fornecer tal perfil para ser explorado pelo próprio usuário pode ser valioso e contribuir, por exemplo, para sua relação com pessoas de interesses semelhantes em aplicativos sociais.

Tópico 5 – Discussão: aprofundamento: No paper, D’Aquin et al. descreveram como recolheram um registro semântico da atividade de um usuário na Web, com a finalidade de ajudar este usuário a entender melhor seu comportamento e troca de informações online. O experimento realizado mostra que os dados coletados representam uma ‘caixa-preta’ da vida Web do usuário, auxiliando-o para fins de monitoramento pessoal, gestão de informação pessoal ou privacidade. Estudos semelhantes já são realizados sob a perspectiva dos sites, mas os autores destacam como eles podem ser explorados pelo usuário. Eles sugerem o refinamento dos estudos estendendo-os a maneiras diferentes de investigar os dados e integrando esses dados com fontes externas de informação. Para concluir, ressaltam que o experimento apresentado é limitado no sentido de que incide sobre um determinado usuário. Como trabalho futuro, eles pretendem investigar a comparação dos mesmos tipos de análises para grupos de usuários de diferentes origens, interesses e usos Web, entendendo aspectos comuns em seus lifelogs Web.

Nenhum comentário:

Postar um comentário