Tuesday 11 July 2017

One Stage Cluster Sampling In Stata Forex


Stata: análise de dados e software estatístico Jeffrey Pitblado, StataCorp Suponha que você enfrente a análise de dados do seguinte projeto de pesquisa: a população foi amostrada estratificando-a primeiro e selecionando aleatoriamente vários clusters para cada estrato. Dentro de cada cluster, os subgrupos foram selecionados aleatoriamente e, em cada subgrupo, os indivíduos foram selecionados aleatoriamente. Sua primeira pergunta ao analisar os dados da pesquisa deve ser sempre: Como eu identifico o projeto de amostragem usando svyset em Stata Começando no Stata 9, o svyset possui uma sintaxe para lidar com múltiplos estágios de amostragem em cluster. Letrsquos compõe alguns nomes de variáveis ​​para representar as características do projeto da pesquisa: correção de população finita no estágio 2 você obtém a idéia. Dada a descrição acima, o comando svyset deve ser estruturado da seguinte forma: (diz Stata para continuar para a próxima linha em arquivos ad ou do.) Antes do Stata 9, onde o svyset aceitou apenas as variáveis ​​de projeto do primeiro estágio, pode-se Suponha que o comando svyset deve ser o seguinte: quando usar apenas as características de projeto do primeiro estágio, você deve estar ciente de que especificar um FPC implica que não houve amostragem nas PSUs. Se isso não for verdade, então, especificar um FPC para o primeiro estágio produzirá erros padrão negativos que são, as estimativas de erro padrão serão menores do que deveriam. Nesse caso, recomendamos que você não inclua um FPC. Se removemos a opção fpc (), então produziremos estimativas de variância adequadas, mesmo para projetos de vários estágios. A asserção anterior também é válida se você estiver usando a sintaxe moderna para o svyset. Mas, por algum motivo, você só pode especificar as características do primeiro estágio. Por exemplo, alguns conjuntos de dados vêm apenas com informações sobre unidades de estratificação e amostragem na primeira etapa, mesmo que tenham sido coletadas através de um projeto de vários estágios. Se for esse o caso, fpc () não deve ser usado pelos motivos explicados acima. Em um Stata atual, você pode especificar as variáveis ​​de projeto para cada etapa, usando para delimitar os estágios. Agora suponha que o projeto envolveu amostragem por amostragem primeiro e, em seguida, cada cluster foi estratificado antes que os subgrupos fossem amostrados. Aqui nós estratificamos no segundo estágio, mas não o primeiro, então devemos ter uma variável como strata2 em vez de strata1. Se o nosso projeto envolvesse amostragem de cluster estratificada tanto no primeiro quanto no segundo estágio, o comando svyset seria o seguinte: em um Stata atual, você precisa saber de qual etapa uma variável de estrato identifica os estratos. Consulte o SVY svyset para mais exemplos de como projetos svyset multi-estágios. Antes da Stata 9, você usaria a opção strata () somente se o seu projeto tivesse estratificação na primeira etapa. NOTICE: O grupo de consultoria IDRE Statistical estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos . Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria de Estatística dando um presente Seminário de Informática Estatística Análise de Dados de Pesquisa em Stata Selecionando a amostra Amostra aleatória simples em Stata Neste exemplo, estamos tomando uma amostragem aleatória simples de escolas. Depois de carregar o conjunto de dados no Stata, usaremos o comando count para ver quantos casos temos no arquivo de dados. Em seguida, definiremos a semente para que os resultados sejam replicáveis. Se você não definir uma semente e você executar o código uma segunda vez, você obterá resultados ligeiramente diferentes porque uma amostra diferente será usada. Para desenhar a amostra, usaremos o comando sample. Um número sem a opção de contagem indica a porcentagem a ser amostrada a partir dos dados na memória. Finalmente, usaremos o comando count novamente para ver quantos casos (ou elementos) foram selecionados em nossa amostra. Agora precisamos criar os pesos. Nossa fração de amostragem é 3106194, e o inverso disso é o pq. (Veja Levy e Lemeshow, página 49). Como estamos amostragem de uma porcentagem bastante grande de nossa população, precisamos definir o fpc. Stata calculará o fpc real para nós, precisamos apenas especificar o total da população. Em seguida, vamos recodificar prêmios para ser uma variável 01. Agora estamos prontos para usar o comando svyset para informar a Stata sobre os recursos do nosso plano de amostragem de pesquisa. Usaremos o comando svydes para garantir que tudo esteja bem. Amostragem aleatória estratificada em Stata A diferença entre o exemplo acima e o exemplo abaixo é que a estratificação foi adicionada. Criaremos uma variável de estratificação a ser usada neste exemplo. Vamos criar dois estratos baseados nas notas médias api99 das escolas. As escolas com uma pontuação de api99 igual ou inferior ao escore médio de api99 estarão nos estratos 1 e aqueles com pontuações de api99 acima da média serão nos estratos 2. Você vai nos resultados abaixo que a estratificação faz algumas das estimativas mais eficientes, enquanto Outras estimativas não são auxiliadas pela estratificação. A diferença tem a ver com a relação entre a variável de estratificação e a variável sendo estimada. Se houver um relacionamento razoável, a estratificação é útil se não houver um relacionamento, a estratificação não ajuda. (Mesmo que não haja uma relação entre a variável de estratificação e a variável que está sendo estimada, a estratificação geralmente não tornará a estimativa menos eficiente do que SRS.) Para criar a variável strata, a qual chamaremos de estratégia. Usamos o comando generate (gen for short) e estabelecemos strat igual a 1. Vamos então usar o comando replace para substituir o valor de strat por 2 se o valor de api99 for maior que 631, o que é aproximadamente a média. Em circunstâncias normais, você não formaria estratos como estamos aqui. Em vez disso, os estratos ocorreriam naturalmente na população, como gênero, raça, categorias de idade ou renda, etc. Usaremos o prefixo antes do comando de contagem e antes do comando da amostra. Quando usado antes do comando de amostra, ele diz a Stata para selecionar a amostra de forma independente de cada estrato. Agora que sabemos quantos elementos estão em cada estrato, podemos calcular os pesos. Usaremos a mesma fórmula que antes: Nn, onde N é o número total da população (neste caso, o número total de elementos na população nesse estrato particular) e n é o número de elementos selecionados na amostra Naquele estrato. (Veja Levy e Lemeshow, página 122) Nós também usamos os totais da população em cada strata para criar a variável fpc, que novamente chamamos fpc. Agora vamos recodificar prêmios de uma variável 12 para uma variável 01, de modo que sua interpretação em análises de regressão seja mais simples. O comando svyset, clear (all) não é realmente necessário, mas está incluído para mostrar como ele poderia ser usado. Finalmente, usamos svyset e verificamos com svydes. Amostragem sistemática Existem 6194 escolas em nossa amostra, e gostaríamos de usar amostras sistemáticas para selecionar uma amostra de tamanho 500. Portanto, k 6194500 13, o que significa que selecionaremos cada 13ª escola. Agora, precisamos selecionar aleatoriamente o número do qual começar. Para fazer isso, levaremos a parte inteira (obtida com a função int) de um número aleatório (obtido com a função uniforme (). Vamos multiplicar por 13, porque queremos que 13 seja o limite superior dos números gerados. Vamos adicionar 1 ao nosso número aleatório, porque o número retornado pela função uniforme () variará de 0 a 12.9999999. Se adicionarmos 1 e pegar a parte inteira do número (a parte antes do ponto decimal), obteremos um número aleatório entre 1 e 13. O número selecionado aleatoriamente foi 4. Portanto, começaremos a selecionar em nossa amostra a cada 13 A escola começa com a escola número 4. (Veja Levy e Lemeshow, página 83) Para realmente selecionar a amostra, vamos classificar os dados por snum (número da escola), soltar as três primeiras escolas (porque queremos começar com a escola número 4) , E, em seguida, gerar uma nova variável, que chamamos de y. Esse é o módulo (ou seja, o restante após a divisão) do número da escola dividido por 13. Nós descartamos todos os casos para os quais y não é igual a 0 e usamos o comando de contagem para determinar quantas escolas estão em nossa amostra. Agora precisamos criar os pesos p e configurar o fpc. Vamos recodificar e relabelar os prêmios variáveis. Amostragem em cluster de um estágio Em nossa amostra de cluster de uma etapa, os distritos serão o cluster e as escolas serão unidades elementares ou de amostragem. Nós decidimos usar amostragem aleatória simples para selecionar nossos clusters. Por isso, selecionamos aleatoriamente os distritos escolares e depois selecionamos todas as escolas dentro de cada distrito selecionado. Em seguida, precisamos criar um novo conjunto de dados com apenas uma linha para cada dnum para que possamos fazer a amostragem. Usaremos o comando do contrato para fazer isso. Obteremos o número total de distritos agora para uso no cálculo do pico mais tarde. Em seguida, criaremos uma nova variável, x. Com valores aleatórios classificar os dados em x definir a semente selecione a amostra e veja quantos distritos foram selecionados. Recorremos aos dados no dnum e salve o conjunto de dados para uso na segunda parte da criação da amostra. Agora que sabemos quais os distritos selecionados para estar na nossa amostra, precisamos colocar essas informações no conjunto completo de dados. (Lembre-se de que o conjunto de dados que acabamos de criar não contém as informações para cada escola no distrito.) Nós classificamos o arquivo no dnum (observe que esta é a mesma variável que ordenamos o outro arquivo de dados) e, em seguida, funde-se Os dois arquivos. Nós deixamos cair todos os casos que não coincidem e verificamos que temos 1461 casos selecionados em nossa amostra. Agora precisamos criar o pq e o fpc. Lembre-se de que a pata é baseada no número de distritos na população e no número de distritos selecionados na amostra, e não nos casos de número (por exemplo, escolas) na amostra. (Veja Levy e Lemeshow, página 247) NOTA: Existe uma quantidade substancial de variabilidade de uma amostra para a próxima. Em algumas amostras, o número máximo de observações por PSU é 552 e os efeitos do design são tão elevados quanto 140 para algumas estimativas. Amostragem em cluster de dois estágios com estratificação Para selecionar esta amostra, vamos dividir o processo em quatro partes. Em primeiro lugar, criaremos os estratos em segundo lugar, faremos a amostragem de primeira e segunda estágios em estratos 1 terceiro, repetiremos o processo no estrato 2 em quarto, vamos concatenar os arquivos para estratos 1 e estratos 2 para criar o arquivo funcionando arquivo de dados. NOTA: Na maioria dos casos, você não terá que criar os estratos sozinho. Em vez disso, eles já serão definidos para você: talvez você use variáveis ​​como sexo e raça para criar seus estratos. Mostramos a criação dos estratos aqui, porque ocasionalmente (como para fins de ensino) você pode ter que fazer isso, e há alguns problemas difíceis envolvidos. NOTA2: porque estamos usando o mesmo procedimento de amostragem em cada strata, podemos fazer a amostragem para ambos os estratos ao mesmo tempo, usando a opção by () no comando sample. No entanto, é comum não usar o mesmo projeto de amostragem em cada estrato. Por exemplo, você pode oversample indivíduos de um determinado grupo, porque você está interessado em obter uma estimativa mais precisa para esse grupo, ou porque há relativamente poucos membros no grupo. Por este motivo, mostramos a amostragem individualmente para cada estrato. Além disso, tentamos usar um código que possa ser facilmente adaptado a outras situações, mesmo que não seja o código mais parcimonioso possível para o nosso exemplo. Parte 1: Criando os estratos Vamos criar os estratos de forma semelhante à usada no anterior no exemplo com amostragem aleatória estratificada. Vamos economizar um arquivo com apenas os casos para estratos 1 e um arquivo diferente para os casos para estratos 2. No entanto, para determinar o ponto de corte para o qual os distritos devem estar nos estratos 1 e quais devem estar nos estratos 2, teremos que Use um procedimento ligeiramente diferente do que o usado anteriormente. Esta mudança é necessária porque agora estamos estratificando os distritos escolares, enquanto que antes de estarmos estratificando as próprias escolas. Encontre o ponto de corte apropriado, obteremos a pontuação média de api99 para cada distrito escolar, colapsaremos o arquivo de dados para que haja apenas uma observação por combinação de números e meios de distrito e, em seguida, localize a média. Agora vamos selecionar nossa amostra no strata 1. Começaremos a determinar quantos casos e clusters temos. Para tornar o processo um pouco mais simples, a saída da maioria dos comandos foi incluída como um comentário imediatamente abaixo do comando. Selecionaremos os clusters da mesma maneira que fizemos para o exemplo de cluster de um estágio. Agora vamos selecionar as escolas de cada distrito. Decidimos selecionar três escolas de cada distrito. Se um distrito tiver três ou menos escolas, selecionaremos a amostra de todas as escolas. Para fazer isso, criaremos uma nova variável aleatória, xx. Por dnum. E classifique nisso. Em seguida, criamos novas variáveis ​​que nos dizem o número de escolas dentro de cada distrito (número) e o número total de escolas dentro de cada distrito (N). Depois de deixar as escolas com números superiores a 3, classificamos os dados em dnum e numero. Finalmente, nós geramos nn. Qual é o número total de escolas selecionadas em cada distrito. Agora estamos prontos para criar os pweights e fpc. Para uma amostra de dois estágios, a fórmula para os pesos é f 1 f 2. Onde f 1 é o inverso da fração de amostragem para o nível 1 (selecionando os clusters) e f 2 é o inverso da fração de amostragem para o nível 2 (selecionando os elementos). (Veja Levy e Lemeshow, página 280) Agora estamos prontos para selecionar a amostra nos estratos 2. Embora possamos alterar o plano de amostragem em nível 1 ou nível 2, ou ambos, seguiremos o mesmo procedimento que usamos em estratos 1. Finalmente, estamos prontos para concatenar (empilhar) os conjuntos de dados (os 2 stratos) juntos. Também criaremos algumas variáveis ​​que precisaremos para as análises mostradas nesta seção. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment