Números são como biquini?

Em quase todos os aspectos de nossas vidas muita gente procura números e estatísticas para analisar a situação de maneira pretensamente mais objetiva e independente de vieses cognitivos e visões de mundo. É natural que no esporte, ambiente controlado e com situações repetidas, essa abordagem se desenvolvesse acentuadamente, como de fato ocorreu com a maioria dos esportes americanos. No futebol, no entanto, esse tipo de análise sempre foi muito tímida e os dados computados muito básicos. Até recentemente.

Na Inglaterra, de alguns anos para cá, os times começaram a captar suas próprias estatísticas e sites especializados oferecem, gratuitamente ou não, acesso a eles. Com matéria prima inédita formou-se uma comunidade ficcionada neste tipo de análise, que agora começa a discutir e descobrir como melhor utilizá-la. Evidente que no começo qualquer estatística é interessante, por ser inédita, mas com o tempo a questão passa a ser diferenciar dados úteis de simples curiosidades.

Nesse ponto, é natural que se pergunte para que servem as análises e que as respostas encontradas sejam “entender que time vence” e “conseguir predizer o resultado de uma partida”. Nesse aspecto os analistas que buscam a verdade se preocupam com dois pontos: o dado tem alta relação com o resultado da partida? Ele se repete ao longo da temporada? Para passar da teoria para a prática, trago as duas métricas mais citadas nos blogs estatísticos:

PC (Proporção de Chutes, ou TSR – Total Shots Ratio): é quanto um time chuta em relação ao total de chutes da partida. Se durante um jogo tiveram 20 chutes e um time chutou 13 deles, ele teve uma PC de 0,65 (13 chutes da equipe / 20 chutes no jogo) naquele confronto. É interpretado como uma medida do domínio de jogo*.

PDO: é uma métrica desenvolvida nas comunidades online sobre hóquei que relaciona quantos chutes um time precisa pra fazer um gol e quantos chutes o adversário precisa pra fazer um gol. Teoricamente, se o ataque de um time é bom (e a defesa adversária ruim) ele precisa de poucos chutes para fazer um gol, enquanto se sua defesa é boa (e o ataque adversário ruim) o oponente precisa chutar muito para fazer um gol. Quanto mais alto o PDO de um time, mais mortais são seus chutes e mais inúteis são os dos adversários. Não é uma medida de domínio de jogo, mas de mortalidade dos chutes.

O interessante é que descobriu-se que para explicar o resultado de uma partida a melhor medida conhecida é o PDO dos times naquele jogo, ou seja, para vencer o jogo é mais importante aproveitar melhor as oportunidades geradas do que gerar mais oportunidades. No entanto, ao contrário da PC, quando olhamos para a métrica jogo a jogo o PDO regressa violentamente à média, ou seja, o aproveitamento de um time num jogo diz muito pouco sobre o próximo, enquanto a PC tende a se manter durante toda a temporada. Por isso, para predizer o desempenho nos jogos futuros deve-se ignorar o PDO e olhar a PC dos times nos jogos passados. De certa forma, o PDO explica como o time chegou até aqui, enquanto a PC para onde ele tende a ir.

Uma interpretação desse comportamento do PDO é que ele é altamente relacionado à sorte** (por mais contra-intuitivo que seja, as equipes são parecidas em relação ao aproveitamento de chances), enquanto a PC é relacionada ao mérito da equipe. Assim, o time que aproveita melhor as oportunidades ganha o jogo, mas como isso depende mais da sorte do que do talento, no longo prazo os times tendem a ter o mesmo aproveitamento e assim aqueles com maior domínio de jogo normalmente ganham os campeonatos. Em outras palavras: para a performance de um time a PC é sinal e o PDO é ruído (embora seja um ruído com sérias consequências)

Essa diferenciação entre domínio (PC) e aproveitamento (PDO) se faz presente em diversas visões sobre o futebol, seja num time copeiro que se defende fora de casa e em raros contra-ataques tenta complicar o jogo (baixa PC compensada pelo PDO no curto-prazo / mata-mata) seja na célebre frase muricyana “A bola pune!” (boa PC não transformada em gols pelo baixo PDO). Ela também dá suporte àqueles que acreditam que o futebol é tão fascinante por permitir que o time mais fraco (PC mais baixa) ganhe do mais forte, com capricho e um pouco de sorte (alto PDO).

Essas duas medidas permitem análises interessantes, como depois de 10 jogos, 20 jogos ou ao fim do 1o turno calcular se os times que estão no topo da tabela alcançaram estes postos por talento ou sorte e o que tende a acontecer com eles até o final. Outro tipo de análise é sobre a dinâmica do jogo em si, como no caso da Premier League, sobre a qual sabemos que:

– Numa partida, o time com melhor aproveitamento (PDO) tem 88% de chance de vencer, o com mais chutes (PC), 63% (1)

– A PC é 86% performance e 14% sorte, o PDO 44% performance e 56% sorte (2)

– A PC do 1o turno se mantém 74% no 2o, enquanto o PDO apenas 8% (3)

– A PC do 1o turno explica 50% dos pontos do 2o, enquanto o PDO apenas 9% (3)

– A PC explica 65% dos pontos ganhos no campeonato (4)(5)

– Um time médio pode ganhar ou perder 15 pontos (ou seja, uma variação de 30 pontos) durante um campeonato só pela variação normal do PDO (6)

– A PC explica apenas 7% do PDO, ou seja a correlação entre elas é muito baixa (7)

Aqui no Blog da Central3 vamos tentar acompanhar essas métricas dos times durantes os Brasileirões, para fazer as análises sobre a temporada e as perspectivas de cada time (tentando responder, por exemplo, se um time é cavalo paraguaio ou não) e, quem sabe, em algum tempo tenhamos uma base de dados robusta o suficiente para fazermos inferências sobre a dinâmica de jogo no Brasil (os números variam de país para país). Se você é estatístico, gosta de números ou simplesmente quer nos ajudar, entre em contato conosco!

PS: Essas duas métricas, em especial o PDO, já são usadas há algum tempo, de modo que tem vieses, erros e limitações conhecidas. Tanto estes pontos quanto as métricas desenvolvidas para lidar com eles e permitir uma análise mais aprofundada são temas para um próximo texto.

* alguns analistas usam a proporção de chutes certos (ou STR – Shots on Target Ratio), mas os resultados são muito parecidos

** a palavra “sorte” é capciosa, pessoalmente prefiro pensar que atribuímos à sorte tanto fenômenos de fato completamente aleatórios quanto aqueles que não conseguimos colocar no modelo, como o envolvimento de um time em determinado jogo, a fase de cada um, etc. O importante para o raciocínio é que toda essa parcela que chamamos de “sorte” raramente se sustenta no longo prazo.

Posts Relacionados