Thursday 13 July 2017

Movendo Média Sazonal


Hmmm, parece que essa citação para implementar a função é realmente muito fácil de se errar e promoveu uma boa discussão sobre a eficiência da memória. Estou feliz por ter tossido se isso significa saber que algo foi feito corretamente. Ndash Richard 20 de setembro 14 às 19:23 NumPys, a falta de uma função particular específica de domínio é talvez devido à disciplina e à fidelidade das equipes principais à diretiva principal do NumPys: forneça um tipo de matriz N-dimensional. Bem como funções para criar e indexar esses arrays. Como muitos objetivos fundamentais, este não é pequeno, e NumPy faz isso de forma brilhante. O SciPy (muito) maior contém uma coleção muito maior de bibliotecas específicas de domínio (chamadas subpacotes por desenvolvedores SciPy) - por exemplo, otimização numérica (otimização), processamento de sinal (sinal) e cálculo integral (integrar). Meu palpite é que a função que você está procurando é em pelo menos um dos subpacotes de SciPy (scipy. signal talvez) no entanto, eu olharia primeiro na coleção de SciPy scikits. Identifique o (s) scikit (s) relevante (s) e procure a função de interesse lá. Os Scikits são pacotes desenvolvidos de forma independente com base em NumPySciPy e dirigidos a uma disciplina técnica específica (por exemplo, scikits-image. Scikits-learn, etc.). Vários desses foram (em particular, o incrível OpenOpt para otimização numérica) eram altamente conceituados, projetos maduros por muito tempo Antes de escolher residir sob a rubrica de scikits relativamente nova. A página inicial do Scikits gostava de incluir acima de cerca de 30 desses scikits. Embora pelo menos vários deles não estejam mais em desenvolvimento ativo. Seguindo este conselho o levaria a scikits-timeseries no entanto, esse pacote não está mais em desenvolvimento ativo. Na verdade, o Pandas tornou-se, a AFAIK, a biblioteca de séries temporais baseada em NumPy. Pandas tem várias funções que podem ser usadas para calcular uma média móvel, o mais simples é provavelmente o padrão de rolamento. Que você usa da mesma forma: Agora, basta chamar a função rollingmean passando no objeto Series e um tamanho de janela. Que no meu exemplo abaixo é de 10 dias. Verifique se funcionou - por exemplo. Comparou os valores de 10 a 15 na série original em relação à nova série suavizada com a média de rolamento. A função rollingmean, juntamente com cerca de uma dúzia de outras funções, são agrupadas informalmente na documentação do Pandas sob as funções da janela de mudança de rubrica, um segundo grupo relacionado de funções Em Pandas é referido como funções ponderadas exponencialmente (por exemplo, ewma. Que calcula a média ponderada exponencialmente móvel). O fato de que este segundo grupo não está incluído no primeiro (as funções da janela em movimento) é talvez porque as transformações ponderadas exponencialmente não dependem de uma janela de comprimento fixo. Eu sei que esta é uma questão antiga, mas aqui está uma solução que não usa nenhum extra Estruturas de dados ou bibliotecas. É linear no número de elementos da lista de entrada e não consigo pensar em outras formas de torná-lo mais eficiente (na verdade, se alguém conhece uma maneira melhor de alocar o resultado, avise-me). NOTA: isso seria muito mais rápido usando um array numpy em vez de uma lista, mas eu queria eliminar todas as dependências. Também seria possível melhorar o desempenho por execução multi-threaded. A função assume que a lista de entrada é de uma dimensão, então tenha cuidado. UPD: soluções mais eficientes foram propostas por Alleo e jasaarim. Você pode usar np. convolve para isso: o argumento modo especifica como lidar com as bordas. Eu escolhi o modo válido aqui porque acho que é assim que a maioria das pessoas espera correr significa trabalhar, mas você pode ter outras prioridades. Aqui está um gráfico que ilustra a diferença entre os modos: respondido 24 de março 14 às 22:01 Eu gosto desta solução porque é limpo (uma linha) e relativamente eficiente (trabalho feito dentro de numpy). Mas Alleo39s quotEfficient solutionquot usando numpy. cumsum tem melhor complexidade. Ndash Ulrich Stern 25 de setembro 15 às 0:31 Você pode calcular uma média de corrida com: Felizmente, numpy inclui uma função de convolve que podemos usar para acelerar as coisas. A média de corrida é equivalente a convolver x com um vetor que é N longo, com todos os membros iguais a 1N. A implementação numpy de convolve inclui o transiente inicial, então você deve remover os primeiros N-1 pontos: Na minha máquina, a versão rápida é 20-30 vezes mais rápida, dependendo do comprimento do vetor de entrada e do tamanho da janela de média . Note-se que o convolve inclui um mesmo modo que parece que deve abordar o problema transitório inicial, mas o divide entre o início eo fim. Ele remove o transiente do final, e o começo não possui um. Bem, acho que é uma questão de prioridades, não preciso do mesmo número de resultados a expensas de obter uma inclinação em direção a zero que não existe nos dados. BTW, aqui está um comando para mostrar a diferença entre os modos: modos (39full39, 39same39, 39valid39) plot (convolve (uns ((200,)), uns ((50,)) 4750, modem)) para modos m in Legenda do eixo (-10, 251, -.1, 1.1) (modos, loc39lower center39) (com piplot e numpy importados). Ndash lapis 24 mar 14 às 13:56 pandas é mais adequado para isso do que NumPy ou SciPy. Sua função rollingmean faz o trabalho convenientemente. Ele também retorna uma matriz NumPy quando a entrada é uma matriz. É difícil vencer o rolamento em desempenho com qualquer implementação personalizada Python pura. Aqui está um exemplo de desempenho contra duas das soluções propostas: também há boas opções sobre como lidar com os valores da borda. I39m sempre irritado pela função de processamento de sinal que retorna sinais de saída de forma diferente dos sinais de entrada quando as entradas e saídas são da mesma natureza (por exemplo, ambos os sinais temporais). Ele quebra a correspondência com a variável independente relacionada (por exemplo, tempo, frequência) fazendo conspiração ou comparação não é uma questão direta. De qualquer forma, se você compartilhar o sentimento, você pode querer mudar as últimas linhas da função proposta como ynp. convolve (ww. sum (), s, mode39same39) return ywindowlen-1 :-( windowlen-1) ndash Christian O39Reilly Ago 25 15 às 19:56 Um pouco atrasado para a festa, mas eu fiz minha própria função pequena que NÃO envolve as extremidades ou almofadas com zeros que são usados ​​para encontrar a média também. Como um tratamento adicional é, que também re-amostras o sinal em pontos espaçados linearmente. Personalize o código à vontade para obter outros recursos. O método é uma simples multiplicação de matriz com um kernel gaussiano normalizado. Um uso simples em um sinal sinusoidal com ruído distribuído normal adicionado: Esta questão é agora mais antiga do que quando o NeXuS escreveu sobre isso no mês passado, MAS EU gosto de como seu código lida com casos de ponta. No entanto, como é uma média móvel simples, seus resultados ficam atrás dos dados a que se aplicam. Eu pensei que lidar com casos de ponta de uma maneira mais satisfatória do que os modos NumPys válidos. mesmo. E cheio poderia ser conseguido aplicando uma abordagem semelhante a um método baseado em convolução (). Minha contribuição usa uma média de execução central para alinhar seus resultados com seus dados. Quando existem dois pontos disponíveis para a janela de tamanho completo, as médias correntes são calculadas a partir de janelas sucessivamente menores nas margens da matriz. Na verdade, de janelas sucessivamente maiores, mas isso é um detalhe de implementação. É relativamente lento porque usa convolve (). E provavelmente poderia ser bem sucedido por um verdadeiro Pythonista, no entanto, eu acredito que a idéia está em pé. Respondeu em 2 de janeiro às 0:28 np. convolve é bom, mas lento quando a largura da janela cresce. Algumas respostas fornecem algoritmos mais eficientes com np. cumsum, mas parecem incapazes de lidar com valores de borda. Eu mesmo implementei um algoritmo que pode lidar bem com este problema, se este problema for declarado como: o parâmetro de entrada de entrada pode ser pensado como 2 largura de janela 1. Eu sei que este código é um pouco ilegível se você achar útil e quiser algumas explicações, por favor me avise e eu vou atualizar esta resposta. (Uma vez que escrever uma explicação pode me custar muito tempo, espero que eu faça isso somente quando alguém precisa disso. Por favor, perdoe-me pela preguiça :)) Se você estiver interessado na sua versão original: é ainda mais ilegível: a primeira solução Se livra do problema da borda por preenchimento de zeros em torno da matriz, mas a segunda solução publicada aqui lida com elas de forma direta e direta :) lapis sim, mas dizemos que você usa o método cumsum no primeiro tiquetaque e salve sua matriz média rolante para o Próxima marca. Cada anotação depois disso você só precisa anexar o valor médio móvel mais recente para sua matriz em armazenamento. Usando este método, você não recalcula as coisas que você já calculou: no primeiro, marque o cumsum depois disso, você apenas adiciona o quotmean dos elementos do último período que é 2 vezes mais rápido para todos os carrapatos subseqüentes. Ndash litepresence 10 de junho 16 às 12:29 Se você optar por rolar o seu próprio, em vez de usar uma biblioteca existente, esteja consciente do erro de ponto flutuante e tente minimizar seus efeitos: se todos os seus valores forem aproximadamente a mesma ordem de grandeza , Então isso ajudará a preservar a precisão sempre adicionando valores de magnitudes aproximadamente semelhantes. Na minha última frase, eu estava tentando indicar por que isso ajuda o erro de ponto flutuante. Se dois valores são aproximadamente da mesma ordem de grandeza, então adicioná-los perde menos precisão do que se você adicionasse um número muito grande a um número muito pequeno. O código combina quotadjacentquot valores de uma maneira que mesmo as somas intermediárias devem ser sempre razoavelmente próximas em magnitude, para minimizar o erro de ponto flutuante. Nada é à prova de engano, mas esse método salvou alguns projetos muito pouco implementados em produção. Ndash Mayur Patel 15 de dezembro às 17:22 Alleo: Em vez de fazer uma adição por valor, você estará fazendo dois. A prova é a mesma coisa que o problema do lançamento de bits. No entanto, o ponto desta resposta não é necessariamente desempenho, mas precisão. O uso de memória para valores médios de 64 bits não excederia 64 elementos no cache, portanto também é amigável no uso de memória. Ndash Mayur Patel 29 de dezembro 14 em 17: 04Os exemplos a seguir produzem uma média móvel dos valores de WINDOW anteriores. Nós truncamos os primeiros valores (WINDOW -1), já que podemos encontrar a média antes deles. (O comportamento padrão para a convolução é assumir que os valores antes do início da nossa sequência são 0). (Mais formalmente, construímos a seqüência y para a seqüência x onde yi (xi x (i1) 8230. x (in)) n) Isso faz uso da função de convolução numpy8217s. Esta é uma operação média móvel de propósito geral. Alterar as ponderações faz com que alguns valores sejam mais importantes para compensar adequadamente, permite que você veja a média em torno do ponto em vez do ponto anterior. Em vez de truncar valores podemos consertar os valores iniciais, como ilustrado neste exemplo:

No comments:

Post a Comment