Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior Próxima revisão Ambos lados da revisão seguinte | ||
cursos:planeco:roteiro:10-glm [2022/04/19 10:45] adalardo [Função de ligação] |
cursos:planeco:roteiro:10-glm [2024/04/03 17:17] 127.0.0.1 edição externa |
||
---|---|---|---|
Linha 82: | Linha 82: | ||
* um nível alto de ''pH'' com ''Biomass'' de **3.2** | * um nível alto de ''pH'' com ''Biomass'' de **3.2** | ||
* um nível médio de ''pH'' com ''Biomass'' de **15.5** | * um nível médio de ''pH'' com ''Biomass'' de **15.5** | ||
- | * um nível baixo de ''pH'' com ''Biomass'' de **7.2** | + | * um nível baixo de ''pH'' com ''Biomass'' de **7.1** |
/* | /* | ||
- | Faça o diagnóstico do resíduos do modelo mínimo adequado. | + | - Faça os gráficos diagnósticos dos resíduos do modelo mínimo adequado selecionado. |
*/ | */ | ||
- | |||
==== Modelo Linear Generalizado (GLM) ==== | ==== Modelo Linear Generalizado (GLM) ==== | ||
Linha 142: | Linha 140: | ||
- | O padrão do R é ordenar as variáveis categóricas por ordem alfabética. No exemplo seria desejável reordenar a variável categórica **//ph//** em uma categórica ordenada **low>medium>high**. Para reordenar utilize o menu **Data>Manager variable in active data set> Reorder factor levels**. Caso não deseje sobrescrever a variável original, forneça um novo nome para a variável reordenada. | + | O padrão do R é ordenar as variáveis categóricas por ordem alfabética. No exemplo seria desejável reordenar a variável categórica ''ph'' em uma categórica ordenada ''low>medium>high''. |
+ | |||
+ | <WRAP center round box 90%> | ||
+ | * reordene a variável ''ph'' utilizando o menu ''Data>Manager variable in active data set> Reorder factor levels'' | ||
+ | * crie a variável ''factor'' com o nome ''phF'' na caixa ''factor name'' e selecion a caixa ''Faça fator ordenado'', em seguida clique em ''OK''; | ||
+ | * reordene as variáveis inserindo ''1'', ''2'' e ''3'' nas caixas dos níveis ''low'', ''medium'', ''high'' | ||
</WRAP> | </WRAP> | ||
- | ==== O que preciso entregar ==== | + | </WRAP> |
+ | |||
+ | ==== Formulário de Perguntas ==== | ||
Linha 152: | Linha 157: | ||
- | * Preencha as perguntas do quadro abaixo ou pelo [[https://forms.gle/Y3Cka1kHQ3to354E9|link do formulário]] | + | * Responda as perguntas [[https://forms.gle/25sHYMhmKM1WfT5K9|do formulário]] |
- | {{url>https://forms.gle/Y3Cka1kHQ3to354E9}} | ||
</WRAP> | </WRAP> | ||
+ | |||
===== Contagem: o que faz um aluno faltar às aulas ===== | ===== Contagem: o que faz um aluno faltar às aulas ===== | ||
Linha 302: | Linha 308: | ||
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
- | * monte o modelo cheio utilizando a família ''quasipoisson'' e | + | * monte o modelo cheio utilizando a família ''quasipoisson''; |
- | * siga em frente simplificando o modelo para o mínimo adequado | + | * verifique se o parâmetro de dispersão compensa a razão entre ''Residual deviance'' e os respectivos ''degrees of freedom''; |
- | * interprete o modelo selecionado | + | * siga em frente simplificando o modelo para o mínimo adequado; |
+ | * o que está representado no intercepto do modelo selecionado e qual a predição de dias de aulas perdidas para esse aluno? | ||
+ | * faça a predição do modelo para os seguintes alunos: | ||
+ | * menino aborígene no ano ''F2'' | ||
+ | * menino não aborígene no ano ''F2'' | ||
+ | * menina aborígene no ano ''F3'' | ||
+ | * menina não aborígene no ano ''F3'' | ||
+ | |||
+ | * interprete o modelo selecionado. | ||
</WRAP> | </WRAP> | ||
Linha 330: | Linha 344: | ||
*/ | */ | ||
- | ==== O que preciso entregar ==== | + | ==== Formulário de Perguntas ==== |
Linha 336: | Linha 350: | ||
- | * Preencha as perguntas do quadro abaixo ou pelo [[https://forms.gle/WdAzcHBpF25NeMkd9|link do formulário]] | + | * Responda as perguntas [[https://forms.gle/WdAzcHBpF25NeMkd9|do formulário]] |
- | {{url>https://forms.gle/WdAzcHBpF25NeMkd9}} | ||
</WRAP> | </WRAP> | ||
Linha 389: | Linha 402: | ||
Note como a __**chance**__ de ocorrência de um evento é a probabilidade de ocorrência deste evento dividida pela probabilidade da não ocorrência do mesmo evento. | Note como a __**chance**__ de ocorrência de um evento é a probabilidade de ocorrência deste evento dividida pela probabilidade da não ocorrência do mesmo evento. | ||
- | A __**chance**__ é muito usada em apostas, quando, por exemplo, dizemos que a chance de um time vencer é de ''4:1'' ((ou que está pagando 4:1)), ou seja, a probabilidade de vencer é ''4x'' maior do que a de perder. O conceito de chance é muito importante nos modelos binomiais e devemos evitar confundi-lo com probabilidade. Chance e probabilidade são escalas distintas para medir a ocorrência de sucessos. | + | A __**chance**__ é muito usada em apostas, quando, por exemplo, dizemos que a chance de um time vencer é de ''4:1'' ((ou que está pagando 4 a cada 1 apostado)), ou seja, a probabilidade de vencer é ''4x'' maior do que a de perder. O conceito de chance é muito importante nos modelos binomiais e devemos evitar confundi-lo com probabilidade. Chance e probabilidade são escalas distintas para medir a ocorrência de sucessos. |
</WRAP> | </WRAP> | ||
Linha 407: | Linha 420: | ||
$$\alpha + \sum\beta_{x_i}$$ | $$\alpha + \sum\beta_{x_i}$$ | ||
- | É a estrutura determinística do modelo modelo linear, agora não mais relacionado diretamente à escala da variável resposta. | + | É a estrutura determinística do modelo modelo linear, agora não mais relacionado diretamente à escala da variável resposta ''y'' e sim a um preditor linear $\eta$. |
A função de ligação é o que relaciona o preditor linear com a esperança do modelo: | A função de ligação é o que relaciona o preditor linear com a esperança do modelo: | ||
Linha 429: | Linha 442: | ||
==== Chance e Razão de Chance ==== | ==== Chance e Razão de Chance ==== | ||
- | O predito pelo modelo na escala do preditor linear do modelo binário com função de ligação //**logit**// está na escala de logaritmo da chance ($\log(\frac{p}{1-p})$). Além disso, os coeficientes em geral são definidos pelo logaritmo da razão de chance. A //**razão de chance**// mede o quanto uma chance é proporcionalmente diferente de outra, geralmente comparando com um nível controle. Ou seja, qual a proporção de mudança na chance do tratamento em relação a chance do controle. Parece complicado, mas é apenas por falta de intimidade com essas escalas, a razão de chance é uma medida muito popular em outras áreas da ciência, como medicina. Vamos avaliar algumas características dessas medidas. | + | O predito pelo modelo na escala do preditor linear do modelo binário com função de ligação //**logit**// está na escala de logaritmo da chance ($\log(\frac{p}{1-p})$). |
- | + | Dado que, para variáveis categóricas os coeficientes do modelo são relacionados às diferenças entre o nível do tratamento e o controle: | |
- | Dado que, em variáveis categóricas os coeficientes do modelo são relacionados às diferenças entre o nível do tratamento e o controle: | + | |
Linha 438: | Linha 450: | ||
então, exponenciar os coeficientes do modelo binomial com preditora categórica transforma os coeficientes em razão de chance comparado com o nível basal ((lembre-se que as categóricas são transformadas em variáveis indicadoras ou dummy e um dos níveis é transportado para o intercepto do modelo, sendo esse o nível basal ou controle)). | então, exponenciar os coeficientes do modelo binomial com preditora categórica transforma os coeficientes em razão de chance comparado com o nível basal ((lembre-se que as categóricas são transformadas em variáveis indicadoras ou dummy e um dos níveis é transportado para o intercepto do modelo, sendo esse o nível basal ou controle)). | ||
- | No caso de variáveis contínuas a **razão de chance** é relacionada à chance de ''x+1'' comparada com ''x'', ou seja, qual a proporção de mudança na chance com o aumento de uma unidade da variável contínua preditora. | + | A //**razão de chance**// mede o quanto uma chance é proporcionalmente diferente de outra, geralmente comparando com um nível controle. Ou seja, qual a proporção de mudança na chance do tratamento em relação a chance do controle. Pensando em nosso experimento de germinação tendo o ''solo arenoso'' como nível de referência, a razão de chance do ''solo argiloso'' seria o quanto a chance de germinar no ''argiloso'' é proporcionalmente maior/menor que a chance de germinar no solo ''arenoso''. |
+ | |||
+ | Parece complicado, mas é apenas por falta de intimidade com essas escalas, a razão de chance é uma medida muito popular em outras áreas da ciência, como medicina. Importante lembrar que a ''razão de chance'' mede o efeito proporcional em relação ao nível de referência. | ||
+ | |||
+ | No caso de variáveis contínuas a ''razão de chance'' é relacionada à chance de ''x+1'' comparada com ''x'', ou seja, qual a proporção de mudança na chance com o aumento de uma unidade da variável contínua preditora. | ||
- | Portanto, uma forma de interpretar os coeficientes do modelo binomial é exponenciá-los e interpretá-los como razão de chance, sendo o intercepto a chance do nível basal da variável categórica ou a chance quando a variável contínua é zero. | + | Portanto, uma forma de interpretar os coeficientes do modelo binomial é exponenciar e interpretar como razão de chance, sendo o intercepto a chance do nível basal da variável categórica ou a chance quando a variável contínua é zero. |
Linha 464: | Linha 480: | ||
==== Hipótese ==== | ==== Hipótese ==== | ||
- | O objetivo do estudo que gerou esses dados é saber se a ocorrência da ave está relacionada com o isolamento e tamanho da ilha. | + | O objetivo do estudo que coletou esses dados foi saber se a ocorrência da ave está relacionada com o isolamento e tamanho da ilha. |
<WRAP center round todo 80%> | <WRAP center round todo 80%> | ||
Linha 477: | Linha 493: | ||
** Importante: ** | ** Importante: ** | ||
* lembre-se que a ''family'' nesse caso é ''binomial'' | * lembre-se que a ''family'' nesse caso é ''binomial'' | ||
- | * os modelos com variáveis resposta binárias não tem problema com sobre-dispersão!!! | + | * os modelos com variáveis resposta binárias bernoli (apenas uma tentativa) não tem problema com sobre-dispersão!!! |
</WRAP> | </WRAP> | ||
Linha 504: | Linha 520: | ||
</WRAP> | </WRAP> | ||
- | ==== O que preciso entregar ==== | + | ==== O que preciso entregar? ==== |
Linha 510: | Linha 526: | ||
- | * Preencha as perguntas do quadro abaixo ou pelo [[https://forms.gle/zXH4UQUXb29JTiTD6|link do formulário]] | + | * Preencha o [[https://forms.gle/JfAHqWKjeb1tAycPA|formulário]] |
- | {{url>https://forms.gle/zXH4UQUXb29JTiTD6}} | ||
</WRAP> | </WRAP> | ||
Linha 626: | Linha 640: | ||
Para interpretar os coeficientes use o mesmo procedimento do exercício anterior, que é aplicar a função exponencial (''exp'') nos coeficientes previstos e interpretar como ''chance'' e ''razão de chance''((O Rcmdr apresenta os valores dos coeficientes exponenciados após o resumo do modelo na sua construção )). | Para interpretar os coeficientes use o mesmo procedimento do exercício anterior, que é aplicar a função exponencial (''exp'') nos coeficientes previstos e interpretar como ''chance'' e ''razão de chance''((O Rcmdr apresenta os valores dos coeficientes exponenciados após o resumo do modelo na sua construção )). | ||
- | Para interpretar os valores previsto é necessário aplicar a função inversa do ''logit'', ou seja, nosso modelo faz previsões na escala de log(odds-ratio), nosso preditor linear $\eta$, e precisamos retornar para a escala de observação que é a probabilidade de florescer ($\hat{y}$): | + | Para interpretar os valores previsto((esperança)) pelo modelo é necessário aplicar a função inversa do ''logit''. O modelo faz previsões na escala de log(odds-ratio), o preditor linear $\eta$, para interpretar é necessário retornar os valores para a escala de observação: __**probabilidade de florescer**__ ($\hat{y}$): |
$$\hat{y} = \frac{e^{\hat{\eta}}}{1+e^{\hat{\eta}}} $$ | $$\hat{y} = \frac{e^{\hat{\eta}}}{1+e^{\hat{\eta}}} $$ | ||
Linha 632: | Linha 646: | ||
<WRAP center round todo 80%> | <WRAP center round todo 80%> | ||
- | * calcule o predito pelo modelo e os coeficientes na escala original | + | * calcule o predito pelo modelo para os valores das variáveis preditoras ''dose'' e ''variety'' dos dados originais na escala de probabilidade de floração; |
- | * interprete o efeito da concentração na floração das variedades a partir dos coeficientes do modelo selecionado | + | |
- | + | ||
- | </WRAP> | + | |
<WRAP center round tip 80%> | <WRAP center round tip 80%> | ||
Linha 642: | Linha 652: | ||
**__Transformar os coeficientes e valores preditos pelo GLM:__** | **__Transformar os coeficientes e valores preditos pelo GLM:__** | ||
- | Para transformar o valor predito pelo modelo (log(odds-ratio)) na escala de medida (proporção) é preciso transformar os preditos pelo modelo. Para predizer na escala de medida usamos a função ''predict'', como no código abaixo. O predito pelo modelo, está na escala do preditor linear, portanto devemos transformar essa medida com a função inversa da logit, como no código abaixo. <wrap hi>Lembre-se de mudar, no código, o "nomedomodelo"</wrap> pelo nome que usou quando construiu o glm. | + | Para transformar o valor predito pelo modelo (''log(odds-ratio)'') na escala de medida (proporção ou probabilidade) é preciso transformar os preditos pelo modelo. Para gerar as predições do modelo usamos a função ''predict'', como no código abaixo. O predito pelo modelo está na escala do preditor linear, portanto é necessário transformar essa medida com a função inversa da logit, como no código abaixo. <wrap hi>Lembre-se de mudar, no código, o "nomedomodelo"</wrap> pelo nome que usou quando construiu o glm. |
<code> | <code> | ||
- | (preditoLinear <- predict("nomedomodelo")) | + | preditoLinear <- predict("nomedomodelo") |
- | (preditoProp <- exp(preditoLinear)/(1+ exp(preditoLinear))) | + | preditoProp <- exp(preditoLinear)/(1+ exp(preditoLinear)) |
</code> | </code> | ||
Linha 661: | Linha 671: | ||
- | Mas o **Rcmdr** não poderia ficar sem essa funcionalidade para interpretar os valores do predito pelo modelo na escala de observação, para isso utilize o menu **Models> add observation statistic to data...>** e selecione apenas o **Fitted values**. O Rcmdr adiciona uma coluna nos dados chamada ''fitted."nome_do_modelo"'', com os previstos na escala de observação, nesse caso probabilidade. | + | O **Rcmdr** não poderia ficar sem essa funcionalidade para interpretar os valores do predito pelo modelo na escala de observação: utilize o menu **Models> add observation statistic to data...>** e selecione apenas o **Fitted values**. O Rcmdr adiciona uma coluna nos dados chamada ''fitted."nome_do_modelo"'', com os previstos na escala de observação, nesse caso probabilidade. |
+ | |||
+ | * calcule o predito pelo modelo para todas as variedades com doses de hormônio de: 5.5, 12, 25; | ||
+ | * interprete o efeito da concentração na floração das variedades a partir dos coeficientes do modelo selecionado | ||
+ | |||
+ | </WRAP> | ||
Linha 736: | Linha 752: | ||
- | * Preencha as perguntas do quadro abaixo ou pelo [[https://forms.gle/81Y14mRvRY6cShfv5|link do formulário]] | + | * Responda as perguntas do [[https://forms.gle/1SxSUrNNcipTJgWD8|formulário]] |
- | + | ||
- | {{url>https://forms.gle/81Y14mRvRY6cShfv5}} | ||
</WRAP> | </WRAP> |