Há mais de 3 anos, quando ainda brincava com sovits, naquela época o modelo de voz precisava ser separado (removendo o ruído de fundo ambiental) para fazer o treinamento.


Depois, era necessário fazer uma triagem no conjunto de dados, removendo as partes com ruído de fundo alto, e então começar o treinamento.
Normalmente, treinava-se cerca de 8000 passos, a melhor fidelidade na reprodução do timbre, se ultrapassasse 8000 passos e a pontuação ainda estivesse abaixo de 25, esse conjunto de dados e o treinamento basicamente se tornavam inúteis.
Se você insistir em continuar treinando, treinando até passar de 14000 passos, surgirá o chamado “divergência”, que no final faz com que o som gerado seja ou “muito distorcido” ou “não pareça nem humano nem monstro”.
Isso lembra o processo de desenvolvimento de negociação quantitativa? O processo de extrair o som seco é como dar ao modelo de autoaprendizado e previsão um conjunto de dados, remover as partes com ruído de fundo alto é como filtrar as negociações inválidas (como picos de alta ou baixa em 1 minuto).
Treinar por 8000 passos evita uma sobreajuste severa, e treinar até 14000 passos “diverge” (sobreajuste severo), levando ao resultado de mercado real que é praticamente como jogar uma moeda.
Embora não estejam na mesma área, a lógica fundamental é a mesma.
Não dá para saber se, no futuro, quem nos derrotar não será alguém de outro setor que cruzar o caminho, o que é realmente difícil de prever...
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar