Usuário:Jonas AGX/tarefa

Grupo de Usuários Wikimedia no Brasil
Ir para navegação Ir para pesquisar

Está página uni análises e comentários sobre a tarefa de Jonas, candidato a vaga de analista de dados (original Data analyst consultant), em relação a captação e retenção de editores na Wikipédia lusófona, também chamada de Tarefa 1

Definindo a questão: A Wikipédia em português tem 39 administradores, cerca de 1500 usuários ativos, e a cada mês entram entre 200 e 300 novos usuários. Nos últimos anos, no entanto, tem-se visto a uma queda no crescimento de novos usuários. Que outros dados você precisaria obter para fazer uma análise de causas e consequências dessa tendência? Que método para obtenção e análise de dados você usaria para estabelecer hipóteses de causa e consequência e como faria para testar suas hipóteses? O que afeta a retenção de usuários?

Metodologia[editar]

Figura 1. Editor é aquele que faz revisões/edições na Wiki, leitor é aquele que recebe o conteúdo da Wiki, um leitor pode tornam-se editor. O usuário ocupa papeis diferentes em diferentes momentos.

A Wikipédia é uma enciclopédia digital construída de forma colaborativa, nela qualquer indivíduo pode colaborar para a construção e manutenção do seu conteúdo. Com o tempo um organismo nasceu ao seu redor, algo não planejado, uma sociedade, onde pessoas conversam entre si e trabalham não apenas para construir conteúdo, mas também para dizer o que é, ou não, conteúdo. Uma sociedade complexa, diversa e por isso conflitosa como qualquer outra. Isso também vale para os outros projetos Wikimedia, como WikiLivros, Wikiversidade, entres outros.

Dois conceitos conflitantes se destacam em várias sociedades: liberdade e segurança. A liberdade representa a autonomia dos indivíduos, enquanto que a segurança tenta garantir a confiabilidade. Um terceiro elemento é o povo, ou sua vontade, que pode, ou não, influenciar a maneira como esses conceitos, liberdade e segurança, se relacionam. Com relação ao equilíbrio entre desses dois conceitos não existe resposta simples, isso é algo que a multidão sempre resolve de algum modo.

Conversando com editores da Wikipédia percebi que no começo, início do projeto[1], havia mais liberdade na edição de seu conteúdo. Essa liberdade gerava conflitos [2], e diversas discussões entre os editores. A partir de um certo ponto[3], teve início a expansão de normas, com o objetivo de simplificar decisões de edição. Essas regras ofereceram mais garantias, por outro lado tiraram parte da liberdade dos editores mais experientes e dos mais novos. Essa evolução histórica leva a pensar que a questão entre liberdade e segurança permeia a Wikipédia, como outros projetos do movimento Wikimedia.[4]

Reforçando minha tese, digo que liberdade significa a capacidade de realizar ações sem interferência de outro editor, uma forma de abertura. Segurança é tudo aquilo capaz de limitar a ação, um fechamento. Esses conceitos são, vistos assim, lados diferentes de uma mesma moeda.

Hipóteses[editar]

Figura 2. Segmentos de atividade dos editores.
  • A Figura 1 mostra um modelo para a atração de editores, nesse ciclo leitores são atraídos para páginas Wiki, essas páginas são mantidas por editores. Eventualmente um leitor se torna um editor, criando uma conta ou editando com IP. As setas na Figura 1 representam fluxo, um editor faz uma edição, um leitor acessa conteúdo, um leitor cria um usuário. Para cada um desses fluxos existem indicadores, números de edições (IP ou usuário), números de acessos, quantidade de novos editores.
  • Pelo modelo da Figura 1 a atração de editores exige a atração de leitores, essa última exige a ação de editores. A produção e disseminação de conteúdo, nessas condições, é um ciclo que se retroalimenta.

Experimentos[editar]

  • Fazer uma relação entre a implantação de políticas de conteúdo na Wikipédia, ao longo do tempo, com a atração de editores. E assim, obter o impacto dessas políticas nas quantidades de edições. Na Figura 2 um período interessante, para estudo, é o que está entre 2006 e o início de 2008, quando houve grandes variações (aumento) nos números de novos editores.
  • Determinar a correlação, duas a duas e conjunta, entre as taxas de edição, taxas de atração, e número de acessos (leitura) na Wikipédia. Avaliar ainda a relação temporal existente entre essas variáveis.
  • Desenvolver e utilizar indicadores capazes de estimar a liberdade e segurança da Wikipédia. Tais indicadores devem explicar o comportamento das séries históricas de acesso e edição em torno da Wikipédia. Será possível, assim, adotar medidas de ação e controle para os projetos de médio e longo prazo da Wikipédia.
  • Encontrar a relação da Wikipédia com eventos sociais. Em estudos recentes foi encontrada uma grande correlação entre casos de dengue no Brasil e acessos ao conteúdo dessa doença no país.[5] Outro fator é sua colocação nos resultados de sites de busca como: Google, DuckduckGo, Bing, entre outros. Esses sites possuem algoritmos para análise de confiabilidade de conteúdo web, podendo ser usados de forma indireta para avaliar o conteúdo da Wikipédia. Uma braço deste experimento pode ajudar a entender como eventos de grande repercussão influenciam a qualidade de artigos relacionados, e na forma como esses artigos evoluem ao longo do tempo.
  • Mensurar e avaliar qual dos segmentos de atividade dos editores é mais suscetível a interferência, a Figura 2 mostra 7 segmentos (linhas), alguns mais distintos do que outros. Definir esses segmentos e encontrar os mais sensíveis ajudará em experimentos futuros, observando-os como mecanismo de resposta.

Questões[editar]

Figura 3. Gráfico com números absolutos de edição. O histórico vai de 2001 até 2010.

Como validar o modelo proposto?[editar]

A Figura 1 mostra uma modelo para a entrada de novos editores a partir da atração de leitores para a Wikipédia. Uma das formas de validar esse modelo é fazer estudos de correlação, entre o surgimento de novos editores com a chegada de mais leitores e vice versa.

Qual o tempo de resposta no diagrama da Figura 1?[editar]

Chamo tempo de resposta o tempo necessário para um agente, como Editores na Figura 1, interferir no comportamento de outros agentes, como Wiki e Leitores. Por exemplo, se a atividade média dos editores dobrar hoje, como e quando isso influenciaria a atração de Leitores?

Como explicar a sazonalidade nos números de novos artigos?[editar]

O gráfico com os números de novos artigos[6] ao longo do tempo apresenta picos de tempos em tempos, interessante observar que esses picos acontecem no mesmo período nos número de novos wikipedistas. É como se a entrada de novos editores acontece em função de certos eventos, provavelmente sazonais. O maior pico desse tipo aconteceu em outubro de 2007, pode ser observado nas figuras 2 e 3, e nos gráficos de novos artigos e novos wikipedistas.

Quais eventos importantes aconteceram na comunidade da Wikipédia por volta de outubro de 2007?[editar]

Observa-se um pico de edições, novos editores e novos artigos nesse período, antes de buscar eventos externos quero avaliar o que houve de relevante dentro da comunidade, buscando causas para esse crescimento fora do normal.

Repetindo o Otávio: Essa é fácil! nesta época o Rei-bot estava a todo vapor e em um dia executou milhares de edições tendo criado mais de 1000 artigos. Ver aqui. Abs, OTAVIO1981 (discussão) 20h05min de 26 de dezembro de 2012 (UTC)

Quais os eventos mais impactantes dentro da comunidade da Wikipédia e como listá-los?[editar]

Quero construir um tipo de linha do tempo dos acontecimentos na comunidade da Wikipédia ao longo do tempo. Peço a contribuição dos usuários mais experimentes na construção dessa linha do tempo, também dos usuários que sabem onde encontrar e ajudar a combinar os arquivos das atividades passadas. Estou construindo um protótipo na página linha do tempo, todos são bem vindos.

Interagindo com a comunidade wikimedia(pedia) soube que já existe um projeto semelhante a esse da linho do tempo, chamado Arqueologia, criado e mantido pelo Rjclaudio, com vários acontecimentos de destaque na comunidade. Essa iniciativa servirá de ponto de partido para a criação de uma linha do tempo estruturada, permitindo a manipulada e criação de visualizações sobre a Wikipédia, simplificando a obtenção de conhecimento. Podendo incluir eventos, internos e externos à comunidade, onde os eventos possam ser categorizados, permitindo filtrar e relacionar os tipos de evento que se queira. Experimentos futuros poderão reutilizar essa linha do tempo.

Qual o bus number da Wikipédia?[editar]

Inspirado por voluntário do movimento Wikimedia, pergunto: quantas pessoas em torno do projeto podem ser acertadas por um ônibus antes da Wikipédia parar de funcionar? Quanto maior esse número maior a resiliência dessa enciclopédia. Essa pergunta remete a relação de poder/dependência na comunidade. Os segmentos de atividade dentro da comunidade se diferenciam nitidamente: usuários de muita atividade, usuários de atividade média, e usuário de pouca atividade. Um baixo bus number interfere também na forma como o conteúdo é mantido e atualizado, é uma maneira de engessar o crescimento da Wikipédia, com uma consequente perda de liberdade.

Conversas[editar]

  • Convite para a criação de linha do tempo da Wikipédia, feito nos canais #wikipedia-pt, wikimedia-br no IRC.
  • Tópico criado na Ágora da Wikimedia Brasil e na parte de anúncios da Esplanada da Wikipédia.
  • Convite enviado também no grupo da Wikipédia lusófona do Facebook.

Material[editar]

Reúno nessa seção material para estudo sobre a questão da atração e manutenção de editores, além de outros temas relacionados. Esse material inclui gráficos, dados dos dumps da Wikimedia, relatos de editores e ferramentas desenvolvidas pela comunidade (como o Wmcharts, uma compilação de gráficos criados por um voluntário da Espanha).

Para as questões levantadas acima posso destacar o uso dos seguintes dados, para uso nas análises:

Acessos

Usado como indicador para a popularidade e diversidade do conteúdo lido na Wikipédia. A questão da diversidade mostra que artigos diferentes tem comportamentos diferentes nos acessos, com maior ou menor flutuação na sua popularidade, artigos sobre esporte são um exemplo disso.

Edições (IP e registrado)

Informa nossa capacidade de transformar leitores em editores, quanta liberdade oferecemos para a atividade de editores registrados. Diz também como a comunidade de leitores e leitores reagiu a certos eventos. O maior valor que a Wikipédia possui são seus editores, o conteúdo muda, os servidores podem parar de funcionar, mas se os editores continuarem trabalhando tudo isso pode ser superado. Os editores são a chave para resiliência da Wikipédia.

Criação de contas de usuário

Indica o quão efetivos nós fomos na atração de editores. Disso vem uma pergunta: como mensurar nossa perda de editores?

Linha do tempo da Wikipédia

Um série de eventos em torno da Wikipédia, listados por pessoas da comunidade e de fora dela (por que não?). Um protótipo está em construção na página Linha do tempo da Wikipédia essa série história deverá ser estruturada para permita seu reuso, automático ou manual. Esse linha do tempo abrange eventos internos, externos em relação a comunidade. Todos esses são fatores capazes de influenciar alguma das variáveis acima, mas ainda não se compreende o quanto, em alguns casos nem como essa interferência se dá.

Ferramentas

A análise dos dados e informações da Wikipédia não é tarefa trivial, existem muitas variáveis, pessoas, servidores e conhecimento envolvidos. Como disse o Chaplin, não somos máquinas, acredito que as melhores análises e conhecimento vão brotar de um trabalho conjunto. Perguntei numa das questões acima qual o bus number da Wikipédia, agora pergunto qual é o bus number para análise desses dados? Ou ainda qual o bus number para a disseminação do conhecimento desses dados? Acho importante pensar no trabalho do analista de dados quando não ele não estiver mais lá, fazendo suas análises. Uma dos melhores trabalhos nesse caso é empoderar a comunidade com ferramentas e conhecimentos que a tornem auto suficiente.

A Wikimedia Foundation possui hoje um grupo que trabalha no desenvolvimento de ferramentas (bibliotecas para manipulação dos dados, APIs, criação de visualizações), e de uma plataforma para análise dos dados da Wikipédia, chamada Kraken. O Toolserver, outro exemplo, é uma plataforma colaborativa mantida por um capítulo da Wikimedia na Alemanha, onde analises podem ser desenvolvidas por voluntários da comunidade, sobre a comunidade e para a comunidade. Isso significa que em um futuro próximo o gargalo vai ser a capacidade das comunidades de fazerem uso desses recursos disponibilizados, e de aprenderem com esses mecanismos de autoanálise.

Outro gargalo é a maneira como essas informações são passadas para a comunidade. Um lugar capaz de divulgar esse tipo de informação é o Correio da Wikipédia, com relatórios atualizados sobre variações no comportamento da comunidade. Por fim, a principal tarefa em torno dos testes, experimentos, e análises desses dados é fazer a comunidade entender-se, visualizar o todo, não apenas casos isolados, permitindo melhores decisões e ações.

Ligações externas e internas[editar]

Referências

  1. 16 de outubro de 2001 - Criação do grupo de discussão da Wikipédia lusófona no YahooGroups, havia 4 wikipedistas.
  2. Conflitos de edição, a partir de 2006 criou-se um espaço de mediação. O primeiro caso foi esse aqui: http://pt.wikipedia.org/wiki/Wikip%C3%A9dia:Media%C3%A7%C3%A3o_de_conflitos/Casos/2006-09-24_Anousheh_Ansari
  3. 8 de agosto de 2005 - Criado direito a voto: 100 edições e 45 dias de registro.
  4. https://meta.wikimedia.org/wiki/Global/Brazil/Community_Interviews Entrevistas feitas pela Carol Rossine com membros da comunidade.
  5. https://commons.wikimedia.org/wiki/File:Plot_casos_dengue_e_acessos_-_2009.png.png Usos científicos da Wikipédia - Jonas Xavier
  6. http://stats.wikimedia.org/EN/ChartsWikipediaPT.htm#2 Articles - New articles per day