因为一维时序序列天然比二维的更难预测。这不仅适用于音乐。文本,股票,或者是水位。只要是一维的时序,你就会发现一个很尴尬的问题,CNN太容易过拟合;但是LSTM/GRU表现又一般。生成式锅更大,因为哪怕是位置编码也不能解决隐周期问题。
画就无所谓了,对称的不严格,甚至指头少一根,比起音乐的节拍乱半拍,无论是从影响欣赏上,还是(人工介入的)修复难度上都低于音频。很少有说为了加一根手指要平移半张图的,但是掉了半拍真的要平移之后的整个音轨。
不过,乐观地看,随着StyleTTS的成熟,当音乐可以被精准地识别为铺面,铺面能高质量地合成音轨的那一天,这个问题可以退化为Seq2Seq,从这个意义上说AI音乐的成熟是时间问题罢了(摊手)
所以你可以投点相关的 没准过两年就涨了呢(摊手) |
|