Friday 21 July 2017

Codificação De Dados Em Falta No Stata Forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas mais antigas serão removidas ou arquivadas de tal forma que não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa Digital e Educação Ajude o Stat Consulting Group dando um presente Stata FAQ Como posso recode valores em falta em diferentes categorias Stata nos permite codificar diferentes tipos de valores numéricos em falta. Tem 27 categorias numéricas em falta. Qua. A qua. Qua. Quot. Nesta página, mostraremos como codificar valores em falta em diferentes categorias. Primeiro criamos um conjunto de dados para fins de ilustração. Neste conjunto de dados, todas as variáveis ​​são numéricas e as variáveis ​​feminino e ses têm valores em falta. Os valores não-em falta para a variável fêmea é 0 (para o sexo masculino) e 1 (para o sexo feminino). Os valores não-perdidos para as variáveis ​​são 0 (baixo), 1 (med) e 2 (alto). O resto dos valores são considerados valores em falta. Vamos dizer que queremos codificar -999 em uma categoria, -99 em outro eo resto de valores em falta em uma terceira categoria para todas as variáveis. Método 1: Usando o comando replace Nós podemos substituir manualmente os valores ausentes com quot. a quot para -999, quot. b quot para -99 e. c para o restante de valores ausentes. Por exemplo, para fêmea variável. Podemos fazer o seguinte: O comando codebook acima mostra que variável fêmea tem três tipos de valores em falta e 4 valores em falta. Método 2: Utilizar o comando mvdecode O método 1 pode não ser a melhor forma de recodificar valores em falta em categorias diferentes. Por um lado, temos de fazê-lo uma variável de cada vez. Statas mvdecode comando vem útil para nós. Melhor ainda, podemos usar a palavra chave all para referir todas as variáveis ​​no conjunto de dados. Passando de códigos de valores em falta para valores numéricos A outra questão que abordaremos aqui é como alterar códigos de valores em falta de volta para valores numéricos. O mvencode de comando é emparelhado com o mvdecode de comando que acabamos de encobrir acima e é aquele a ser usado aqui. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar Manutenção e criação de novos conteúdos. Algumas de nossas páginas mais antigas serão removidas ou arquivadas de tal forma que não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajude o Stat Consulting Group dando um presente STATA Learning Module Dados em falta 1. Introdução Este módulo irá explorar os dados em falta no STATA, com foco em dados numéricos faltantes. Ele descreverá como indicar dados ausentes em seus arquivos de dados brutos, bem como como os dados ausentes são manipulados em comandos lógicos STATA e instruções de atribuição. Vamos ilustrar algumas das propriedades de dados ausentes em STATA usando dados de um estudo de tempo de reação com oito sujeitos indicados pela variável id. E os tempos de reação dos pacientes foram medidos em três pontos de tempo (trial1 trial2 trial3). O arquivo de dados de entrada é mostrado abaixo. Você pode notar que alguns dos tempos de reação são codificados usando um único. Como é o caso do sujeito 2. A pessoa que mede o tempo para o ensaio não mediu o tempo de resposta corretamente, portanto os dados do segundo ensaio faltam. 2. Como o STATA processa dados em falta nos procedimentos STATA Como regra geral, os comandos STATA que executam cálculos de qualquer tipo tratam os dados em falta omitidos os valores em falta. No entanto, a forma como os valores em falta são omitidos nem sempre é consistente entre comandos, por isso vamos dar uma olhada em alguns exemplos. Primeiro, vamos resumir nossas variáveis ​​de tempo de reação e ver como STATA manipula os valores ausentes. Como você pode ver na saída abaixo, sumário calculado significa usando 4 observações para trial1 e trial2 e 6 observações para trial3. Resumindo, o comando sumariar executou os cálculos em todos os dados disponíveis. Um segundo exemplo, mostra como o comando tabulation ou tab1 trata os dados ausentes. Como resumir, tab1 usa apenas dados disponíveis. Observe que as porcentagens são calculadas com base no número total de casos não faltantes. É possível que você queira que as porcentagens sejam calculadas a partir do número total de observações ea porcentagem ausente para cada variável mostrada na tabela. Isto pode ser conseguido incluindo a opção que falta após a tabulação. Comando, Let39s olhar como o comando correlate lida com dados em falta. Espera-se que ele realize os cálculos com base nos dados disponíveis e omita os valores faltantes. Aqui está um exemplo de comando. A saída é mostrada abaixo. Observe como os valores em falta foram excluídos. O Stata executará a exclusão listada e exibirá somente a correlação para observações que têm valores não faltantes em todas as variáveis ​​listadas. Stata também permite a exclusão por pares. Correlações são exibidas para as observações que têm valores não faltantes para cada par de variáveis. Isso pode ser feito usando o comando pwcorr. Nós usamos a opção obs para exibir o número de observação usado para cada par, como você pode ver, eles diferem dependendo da quantidade de falta. 3. Sumário de como os valores faltantes são tratados em procedimentos STATA resumir Para cada variável, o número de valores não faltantes são usados. Tabulação Por padrão, os valores ausentes são excluídos e as porcentagens são baseadas no número de valores não faltantes. Se você usar a opção ausente no comando tab, as porcentagens são baseadas no número total de observações (não faltando e ausente) ea porcentagem de valores ausentes são relatados na tabela. Corr Por padrão, as correlações são calculadas com base no número de pares com dados não faltantes (eliminação em pares dos dados ausentes). O comando pwcorr pode ser usado para solicitar que as correlações sejam computadas apenas para observações que tenham dados não faltantes para todas as variáveis ​​listadas após o comando pwcorr (exclusão em lista de dados ausentes). Reg Se alguma das variáveis ​​listadas após o comando reg estiver ausente, as observações que faltam nesse valor (s) são excluídas da análise (isto é, a exclusão em lista de dados ausentes). Para outros procedimentos, consulte o manual STATA para obter informações sobre como os dados faltantes são manipulados. 4. Valores em falta nas instruções de atribuição É importante compreender como os valores em falta são tratados nas instruções de atribuição. Considere o exemplo mostrado abaixo. O comando de lista abaixo ilustra como os valores ausentes são manipulados em instruções de atribuição. A variável sum1 baseia-se nas variáveis ​​trial1 trial2 e trial3. Se alguma dessas variáveis ​​estava faltando, o valor para sum1 foi definido como ausente. Portanto, sum1 está faltando para as observações 2, 3 e 4, como é o caso da observação 7. Como regra geral, os cálculos envolvendo valores faltantes produzem valores faltantes. Por exemplo, 2 2 produz 4 2. rendimentos . 2 2 rendimentos 1. 2. 2 3 rendimentos 6 2. rendimentos . Sempre que você adicionar, subtrair, multiplicar, dividir, etc valores que envolvem dados ausentes, o resultado está faltando. Em nossa experiência de tempo de reação, a soma de tempo de reação total1 está ausente em quatro dos sete casos. Poderíamos tentar totalizar os dados para os ensaios não faltantes usando a função rowtotal como mostrado no exemplo abaixo. Os resultados abaixo mostram que sum2 agora contém a soma dos ensaios não faltantes. Observe que a função rowtotal trata faltando como um valor zero. Ao somar várias variáveis, pode não ser razoável tratar o ausente como zero se uma observação estiver ausente em todas as variáveis ​​a serem somadas. A função rowtotal com a opção ausente retornará um valor ausente se uma observação estiver ausente em todas as variáveis. Outras declarações funcionam da mesma forma. Por exemplo, observamos o que aconteceu quando tentamos criar uma variável média sem usar uma função (como no exemplo abaixo). Se alguma das variáveis ​​trial1, trial2 ou trial3 estiver faltando, o valor para avg1 será definido como ausente. Alternativamente, a função rowmean calcula a média dos dados para os ensaios não faltantes da mesma maneira que a função rowtotal. Nota: Se houvesse um grande número de ensaios, digamos 50 ensaios, então seria irritante ter que digitar avgrowmean (trial1 trial2 trial3 trial4.). Aqui está um atalho que você poderia usar neste tipo de situação: Finalmente, você pode usar as funções rowmiss e rownomiss para determinar o número de ausentes e o número de valores não faltantes, respectivamente, em uma lista de variáveis. Isto é ilustrado abaixo. Para variável nomiss. As observações 1, 5 e 6 tiveram três valores válidos, as observações 2 e 3 tiveram dois valores válidos, a observação 4 teve apenas um valor válido ea observação 7 não teve valores válidos. A variável miss mostra o contrário, fornece uma contagem do número de valores faltantes. 5. Valores em falta em instruções lógicas É importante compreender como os valores ausentes são tratados em instruções lógicas. Por exemplo, digamos que você deseja criar uma variável 01 para trial1 que seja 1 se for 1.5 ou menos e 0 se for superior a 1.5. Mostramos isso abaixo (incorretamente, como você verá). Parece que algo deu errado com nossa nova variável newvar1. As observações com valores em falta para o ensaio2 foram atribuídas um zero para newvar1. Vamos explorar por que isso aconteceu por olhar para a tabela de freqüência de trial2. Como você pode ver na saída, os valores ausentes estão no listado após o valor mais alto 2.1 Isso ocorre porque STATA trata um valor ausente como o maior valor possível (por exemplo, infinito positivo) e esse valor é maior que 2.1, então os valores para Newvar1 torna-se 0. Agora que entendemos como o STATA trata os valores faltantes, excluiremos explicitamente os valores faltantes para garantir que eles sejam tratados corretamente, como mostrado abaixo. Como você pode ver na saída STATA abaixo, a nova variável newvar2 tem valores em falta para observações que também estão ausentes para trial2. 6. Valores em falta em instruções lógicas Ao criar ou recodificar variáveis ​​que envolvem valores ausentes, sempre preste atenção se a variável inclui valores ausentes. 7. Para obter mais informações O conteúdo deste site não deve ser interpretado como um endosso de qualquer site da Web, livro ou produto de software pela Universidade da Califórnia.

No comments:

Post a Comment