Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
cursos:planeco:roteiro:08-lm_base [2024/03/04 16:28] 127.0.0.1 edição externa |
cursos:planeco:roteiro:08-lm_base [2024/03/20 17:36] (atual) |
||
---|---|---|---|
Linha 256: | Linha 256: | ||
==== Esforço Amostral ==== | ==== Esforço Amostral ==== | ||
- | Uma outra fonte de imprecisão nas estimativas do no nosso modelo tem relação com o próprio desenho experimental e está associada ao tamanho da nossa amostra. Essa fonte de imprecisão, apesar de acoplada à variabilidade do sistema, pode ser minimizada com o aumento do esforço amostral. Vamos simular uma amostra maior para os dados simulados do **Modelo I** onde o desvio padrão da população é <wrap hi>7</wrap>. Para aumentar o esforço amostral vamos modificar a sequência de valores de ''x'' na amplitude de 0,5 a 7,5 para intervalos de 0,14, totalizando 51 observações na nossa amostra. | + | Uma outra fonte de imprecisão nas estimativas do nosso modelo tem relação com o próprio desenho experimental e está associada ao tamanho da nossa amostra. Essa fonte de imprecisão, apesar de acoplada à variabilidade do sistema, pode ser minimizada com o aumento do esforço amostral. Vamos simular uma amostra maior para os dados simulados do **Modelo II** onde o desvio padrão da população é <wrap hi>14</wrap>. Para aumentar o esforço amostral vamos modificar a sequência de valores de ''x'' na amplitude de 0,5 a 7,5 para intervalos de 0,14, totalizando 51 observações na nossa amostra. |
- | Note que nessa nova simulação de dados não há nenhuma modificação do nosso sistema ou do modelo matemático subjacente. Todos os parâmetros da população e sua variabilidade intrínseca permanecem os mesmos da primeira simulação de dados (Modelo I). A única modificação é no desenho experimental onde o esforço amostral foi aumentado. | + | Note que nessa nova simulação de dados não há nenhuma modificação do nosso sistema ou do modelo matemático subjacente. Todos os parâmetros da população e sua variabilidade intrínseca permanecem os mesmos da segunda simulação de dados (Modelo II). A única modificação é no desenho experimental onde o esforço amostral foi aumentado. |
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
+ | |||
Para agilizar a construção desta sequência podemos criar um valor de referência para as observações de 0 a 50 e operar esse valor de referência. | Para agilizar a construção desta sequência podemos criar um valor de referência para as observações de 0 a 50 e operar esse valor de referência. | ||
- | * na célula **//A2//** inicie em ''0'' e crie uma sequencia de inteiros até ''50'' (célula **//A51//**); | + | * na célula **//A2//** inicie em ''0'' e crie uma sequencia de inteiros até ''50'' (célula **//A51//**), nomei essa coluna de ''seq''; |
- | * na célula **//B2//** coloque a fórmula ''=0.5+(1.4*A2)'' e copie a fórmula para todas a coluna até a célula **//B51//**; | + | * na célula **//B2//** coloque a fórmula ''=0.5+(0.14*A2)'' e copie a fórmula para todas a coluna até a célula **//B51//** isso irá criar nossa nova variável ''x''; |
- | * a partir deste ponto é só seguir os passos da simulação anterior; | + | * na coluna **//C//** crie a variável ''y1'' com a mesma formula do modelo anterior ''= 4 + 3.5 * B2''; |
+ | * a partir deste ponto é só seguir os passos da simulação anterior notando que a variável ''y1'' agora está na coluna ''C''; | ||
* garanta que calculou os desvios com ''INV.NORM.N(ALEATÓRIO(); 0 ; 14)'', como no exemplo anterior; | * garanta que calculou os desvios com ''INV.NORM.N(ALEATÓRIO(); 0 ; 14)'', como no exemplo anterior; | ||
* salve os dados simulados em um arquivo para uso posterior; | * salve os dados simulados em um arquivo para uso posterior; | ||
Linha 290: | Linha 292: | ||
- | Por exemplo, no nosso exemplo de anova que contenha a variável preditora ''solo'' com os níveis: ''arenoso'', ''argiloso'' e ''heúmico'', cada nível seria representada pelas indicadoras da seguinte forma: | + | No nosso exemplo de anova a variável preditora ''solo'' tinha os níveis: ''arenoso'', ''argiloso'' e ''húmico''.Neste caso, cada nível de ''solo'' seria representada pelas indicadoras da seguinte forma: |
<WRAP center round box 60%> | <WRAP center round box 60%> | ||
- | ^nível ^ variável indicadoras: ^ | + | | | variável indicadoras: | |
- | ^ ^ indica arenoso ^ indica húmico ^ | + | | nível: ^ indica arenoso ^ indica húmico ^ |
- | |arenoso | 0 | 0 | | + | ^arenoso | 0 | 0 | |
- | |argiloso| 1 | 0 | | + | ^argiloso | 1 | 0 | |
- | |húmico | 0 | 1 | | + | ^húmico | 0 | 1 | |
</WRAP> | </WRAP> | ||
- | O resultado deste modelo irá apresentar um intercepto e dois coeficientes, um associado ao nível ''argilos'', outro ao nível ''húmico''. O nível ''arenoso'', não contemplado com uma variável indicadora ((representado por ''00'' nas outras indicadoras)) é estimado no intercepto. Essa estimativa do intercepto, no caso do exemplo apresentado na aula de anova, representa a produção média nesse tipo de solo. Os outros coeficientes apresentados pelo modelo representam o quanto os solos ''argiloso'' ou ''húmico'' são em média diferentes do ''arenoso''. Vamos criar um modelo e interpretar os coeficientes em um conjunto de dados que tem a variável ''solo'' agora com quatro níveis. | + | O resultado deste modelo irá apresentar um intercepto e dois coeficientes, um associado ao nível ''argiloso'', outro ao nível ''humico''. O nível ''arenoso'', não contemplado com uma variável indicadora ((representado por ''00'' nas outras indicadoras)) é estimado no intercepto. Essa estimativa do intercepto, no caso do exemplo apresentado na aula de anova, representa a produção média nesse tipo de solo. Os outros coeficientes apresentados pelo modelo representam o quanto os solos ''argiloso'' ou ''humico'' são em média diferentes do ''arenoso''. Vamos criar um modelo e interpretar os coeficientes em um conjunto de dados que tem a variável ''solo'' agora com quatro níveis. |
Linha 309: | Linha 311: | ||
* baixe o arquivo {{ :planeco:roteiro:colheita.csv |}}; | * baixe o arquivo {{ :planeco:roteiro:colheita.csv |}}; | ||
* abra no excel; | * abra no excel; | ||
- | * note que a variável ''solo'' tem agora 4 níveis: ''arenoso'', ''argiloso'', ''húmico'' e ''alagado''; | + | * note que a variável ''solo'' tem agora 4 níveis: ''arenoso'', ''argiloso'', ''humico'' e ''alagado''; |
* calcule a média de produtividade para cada tipo de ''solo''; | * calcule a média de produtividade para cada tipo de ''solo''; | ||
* Importe o arquivo original ''colheita.csv'' para o Rcommander; | * Importe o arquivo original ''colheita.csv'' para o Rcommander; | ||
Linha 327: | Linha 329: | ||
<WRAP center round box 100%> | <WRAP center round box 100%> | ||
* abra o arquivo {{ :planeco:roteiro:colheita.csv |colheita.csv}} no excel; | * abra o arquivo {{ :planeco:roteiro:colheita.csv |colheita.csv}} no excel; | ||
- | * crie 3 novas colunas nomeadas de: ''arenoso'', ''argiloso'', ''húmico''. | + | * crie 3 novas colunas nomeadas de: ''arenoso'', ''argiloso'', ''humico''. |
- | * para cada observação (linha) represente o nível do solo com o valor ''1'' na respectiva indicadora e ''0'' nas outras. Note que um nível não precisa de indicadora pois será representado pela indicação de ''0'' em todas as indicadoras, no nosso caso o nível ''alagado'' ((os valores ''0;0;0'' ''1;0;0'', ''0;1;0'' e ''0;0;1'' em cada indicadora representam respectivamente: ''alagado'',''arenoso'', ''argiloso'' e ''húmico'')); | + | * para cada observação (linha) represente o nível do solo com o valor ''1'' na respectiva indicadora e ''0'' nas outras. Note que um nível não precisa de indicadora pois será representado pela indicação de ''0'' em todas as indicadoras, no nosso caso o nível ''alagado'' ((os valores ''0;0;0'' ''1;0;0'', ''0;1;0'' e ''0;0;1'' em cada indicadora representam respectivamente: ''alagado'',''arenoso'', ''argiloso'' e ''humico'')); |
* salve a planilha no formato ''.csv''; | * salve a planilha no formato ''.csv''; | ||
* importe essa planilha com as variáveis indicadoras para o Rcommander; | * importe essa planilha com as variáveis indicadoras para o Rcommander; | ||
Linha 485: | Linha 487: | ||
* em uma coluna chamada **desvio total** calcule o desvio total de cada observação (o crescimento observado menos a média do crescimento); | * em uma coluna chamada **desvio total** calcule o desvio total de cada observação (o crescimento observado menos a média do crescimento); | ||
* nomei uma coluna **desvios quadráticos totais** e eleve ao quadrado os valores da coluna criada anteriormente; | * nomei uma coluna **desvios quadráticos totais** e eleve ao quadrado os valores da coluna criada anteriormente; | ||
- | * some esses valores para obter a soma dos desvios quadráticos total ao final desta coluna; | + | * some esses valores para obter a soma dos desvios quadráticos total nomeado como **Variação Total** |
* calcule o valor predito pelo modelo em uma coluna chamada **predito**; | * calcule o valor predito pelo modelo em uma coluna chamada **predito**; | ||
Linha 513: | Linha 515: | ||
* em uma coluna chamada **residuo** calcule a diferença entre cada observação e o respectivo valor predito pelo modelo; | * em uma coluna chamada **residuo** calcule a diferença entre cada observação e o respectivo valor predito pelo modelo; | ||
* crie uma outra coluna (**residuo^2**) com os valores de resíduos quadrático do modelo para cada observação (observado menos o predito pelo modelo ao quadrado); | * crie uma outra coluna (**residuo^2**) com os valores de resíduos quadrático do modelo para cada observação (observado menos o predito pelo modelo ao quadrado); | ||
- | * some os desvios quadráticos dos resíduos para calcular a soma dos desvios quadráticos do modelo; | + | * some os desvios quadráticos dos resíduos para calcular a soma dos desvios quadráticos do modelo e nomeie esse valor como **Variação Resido^2**; |
- | * faça a diferença entre a soma dos desvios quadráticos total pela soma dos desvios quadráticos dos resíduos para calcular a ''soma dos desvios quadráticos explicada pelo modelo'' | + | * faça a diferença entre a soma dos desvios quadráticos total pela soma dos desvios quadráticos dos resíduos para calcular a ''Variação Explicada'' pelo modelo; |
+ | |||
+ | /* | ||
+ | |||
+ | * defina os valores de graus de liberdade da variação explicada pelo modelo e da não explicada; | ||
+ | * calcule a razão entre as variação média explicada e a média não explicada, denominando esse valor de **F**; | ||
+ | * calcule o p-valor associado ao valor da estatística **F**; | ||
+ | * calcule o coeficiente de determinação deste modelo e nomei de **R2**. | ||
+ | |||
+ | */ | ||
Linha 529: | Linha 540: | ||
- | * construa uma tabela de anova na mesma planiha, contendo: | + | <WRAP center round box 90%> |
+ | |||
+ | |||
+ | ==== Tabela de Anova Dieta de Lagarta ==== | ||
+ | |||
+ | A tabela de anova tem as seguintes colunas e linhas: | ||
+ | |||
* colunas: ''soma quadrática'', ''graus de liberdade'', ''média quadrática'', ''F'' e ''p-valor'' | * colunas: ''soma quadrática'', ''graus de liberdade'', ''média quadrática'', ''F'' e ''p-valor'' | ||
* linhas: ''Modelo'', ''Resíduo'', ''Total'' | * linhas: ''Modelo'', ''Resíduo'', ''Total'' | ||
- | * Complete a tabela | ||
<WRAP center round box 80%> | <WRAP center round box 80%> | ||
Linha 538: | Linha 554: | ||
* monte uma tabela de ANOVA com as somas quadráticas como no [[cursos:planeco:roteiro:07-classrcmdr#anovaanalise_de_variancia|tutorial de anova]]; | * monte uma tabela de ANOVA com as somas quadráticas como no [[cursos:planeco:roteiro:07-classrcmdr#anovaanalise_de_variancia|tutorial de anova]]; | ||
- | <WRAP center round tip 80%> | + | <WRAP center round tip 90%> |
+ | |||
==== Equações ==== | ==== Equações ==== | ||
Linha 558: | Linha 576: | ||
</WRAP> | </WRAP> | ||
+ | |||
* Calcule o p-valor associado à estatística F do modelo | * Calcule o p-valor associado à estatística F do modelo | ||
<WRAP center round tip 90%> | <WRAP center round tip 90%> | ||
- | Utilize no excel o valor ** 1- DIST.F(F, df1, df2, VERDADEIRO)((F.DIST no LibreOffice))** para o calculo do p-valor sendo F o valor da estatística F calculada, ''df1'' o grau de liberdade da regressão (normalmente 1) e ''df2'' o valor de graus de liberdade do cálculo dos desvios quadráticos médios dos resíduos (''n - 2''). | + | Utilize no excel o valor ''1- DIST.F(F, df1, df2, VERDADEIRO)((F.DIST no LibreOffice))'' para o cálculo do p-valor sendo F o valor da estatística F calculada, ''df1'' o grau de liberdade da regressão (normalmente ''1'') e ''df2'' o valor de graus de liberdade do cálculo dos desvios quadráticos médios dos resíduos (''n - 2'') que é o número de observações menos dois graus relativos ao cálculo do intercepto e da inclinação. |
</WRAP> | </WRAP> | ||
Linha 578: | Linha 596: | ||
</WRAP> | </WRAP> | ||
+ | </WRAP> | ||
+ | |||
Linha 621: | Linha 641: | ||
</WRAP> | </WRAP> | ||
- | Não há muito a ser interpretado nos resultados do modelo mínimo, mas reconheça os valores que são estimados no resultado do modelo em ''Coefficients Estimate''. Note que neste modelo não há inclinação, pois não existe preditora. Na tabela de ANOVA verifique o valor do ''Sum Sq Residuals'' e reconheça onde ele se encontra na tabela de ANOVA montada no planilha eletrônica anteriormente. | + | Não há muito a ser interpretado nos resultados do modelo mínimo, mas reconheça os valores que são estimados no resultado do modelo em ''Coefficients Estimate''. Note que neste modelo não há inclinação, pois não existe preditora. Na tabela de ANOVA verifique o valor do ''Sum Sq Residuals'' e reconheça onde ele se encontra na tabela de ANOVA montada na planilha eletrônica. |
/* | /* | ||
Linha 637: | Linha 657: | ||
==== Comparando Modelos ==== | ==== Comparando Modelos ==== | ||
- | O procedimento de partição da variação e razão entre variâncias pode ser utilizada como critério para comparação de modelos aninhados. O modelo é considerado aninhado quando o mais complexo engloba todos as variáveis do mais simples, e por consequência o modelo mais simples não pode explicar mais variação do que o mais complexo. | + | O procedimento de partição da variação e calculo da razão entre variâncias pode ser generalizado e utilizada como critério para comparação de modelos aninhados. Modelo são considerados aninhados quando o mais complexo engloba todos as variáveis do mais simples, e por consequência, o modelo mais simples não pode explicar mais variação do que o mais complexo. |
- | Os nossos modelos ''lmLag00'' é aninhado ao modelo ''lmLag01'' e por isso podemos fazer a comparação entre eles pelo critério de partição da variação como segue. | + | O modelo ''lmLag00'' é aninhado ao modelo ''lmLag01'' e por isso podemos fazer a comparação entre eles pelo critério de partição da variação como segue. |
Linha 657: | Linha 677: | ||
- | Na comparação de modelos a razão de variância é relacionada ao quanto o modelo mais complexo explicou a mais em relação ao modelo mais simples em razão do quanto não foi explicado. | + | Na comparação de modelos a razão de variância é relacionada ao quanto o modelo mais complexo explica da variação dos dados em relação ao modelo mais simples. De uma certa forma, a ''tabela de ANOVA'' no R sempre apresenta a partição da variância da comparação de dois modelos aninhados. A ''tabela de ANOVA'' de um modelo isolado é equivalente a comparar o modelo em questão com o modelo mínimo (nulo) correspondente. O entendimento desses conceitos é fundamental para utilizarmos a partição de variação como crítério para a tomada de decisão sobre qual modelo melhor explica nossos dados. |
- | Quando fazemos a ''tabela de ANOVA'' de um modelo como o ''lmLag01'', a partição é exatamente a mesma do que a ''tabela de ANOVA'' de comparação com o modelo nulo ou mínimo((quando não há nenhuma variável preditora)). A tabela de Anova de um modelo isolado é equivalente a comparar o modelo em questão com o modelo nulo correspondente. O entendimento desses conceitos é fundamental para utilizarmos a partição de variação como crítério para a tomada de decisão sobre qual o modelo que melhor explica nossos dados. | + | |
<WRAP center round box 60%> | <WRAP center round box 60%> | ||
Linha 669: | Linha 688: | ||
- | Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo nulo, ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo nulo. Esse modelo nulo, representa o modelo mais simples com a variação total dos dados e é representado por apenas um parâmetro, a média da variável resposta. | + | Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo mínimo (nulo), ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo sem nenhuma preditora. Este modelo mínimo, representado por apenas um parâmetro, a média da variável resposta, apresenta toda a variação dos dados contida nos seus resíduos. |