用 TensorFlow 让你的机器人唱首原创给你听

    今天想来看看 AI 是怎样作曲的。

    本文会用 TensorFlow 来写一个音乐生成器。







    DeepMind 发表了一篇论文,叫做 WaveNet, 这篇论文介绍了音乐生成和文字转语音的艺术。





    他们用的模型是 CNN。这个模型的每一个隐藏层中,每个扩张因子,可以互联,并呈指数型的增长。每一步生成的样本,都会被重新投入网络中,并且用于产生下一步。


    接着我们对它进行编码,来产生一个 Tensor,这个 Tensor 有一些 sample 和 channel。

    然后把它投入到 CNN 网络的第一层中。这一层会产生 channel 的数量,为了进行更简单地处理。

    然后把所有输出的结果组合在一起,并且增加它的维度。再把维度增加到原来的 channel 的数量。




    这个网络很大,在他们的 GPU 集群上需要花费九十分钟,并且仅仅只能生成一秒的音频。

    接下来我们会用一个更简单的模型在 TensorFlow 上来实现一个音频生成器。


    数据科学包 Numpy ,数据分析包 Pandas,tqdm 可以生成一个进度条,显示训练时的进度。

    import numpy as np import pandas as pd import msgpackimport glob import tensorflow as tf from tensorflow.python.ops import control_flow_ops from tqdm import tqdm import midi_manipulation

    我们会用到一种神经网络的模型 RBM-Restricted Boltzmann Machine 作为生成模型。 



    先定义需要模型生成的 note 的 range

    lowest_note = midi_manipulation.lowerBound #the indexof the lowest note on the piano roll highest_note = midi_manipulation.upperBound #the indexof the highest note on the piano roll note_range = highest_note-lowest_note #the note range

    接着需要定义 timestep ,可见层和隐藏层的大小。

    num_timesteps = 15 #This is the number of timesteps that we will createat a time n_visible = 2*note_range*num_timesteps #This is the sizeof the visible layer. n_hidden = 50 #This is the sizeof the hidden layer123123


    num_epochs = 200 #The number of training epochs that we are going to run. For each epoch we go through the entire data set. batch_size = 100 #The numberof training examples that we are going to send through the RBM at a time. lr = tf.constant(0.005, tf.float32) #The learning rate of our model


    x 是投入网络的数据  w 用来存储权重矩阵,或者叫做两层之间的关系  此外还需要两种 bias,一个是隐藏层的 bh,一个是可见层的 bv

    x = tf.placeholder(tf.float32, [None, n_visible], name="x") #The placeholder variable that holds our data W = tf.Variable(tf.random_normal([n_visible, n_hidden], 0.01), name="W") #The weight matrix that stores the edge weights bh = tf.Variable(tf.zeros([1, n_hidden], tf.float32, name="bh")) #The bias vector for the hidden layer bv = tf.Variable(tf.zeros([1, n_visible], tf.float32, name="bv")) #The bias vector for the visible layer

    接着,用辅助方法 gibbs_sample 从输入数据 x 中建立样本,以及隐藏层的样本:

    gibbs_sample 是一种可以从多重概率分布中提取样本的算法。 


    #The sample of x x_sample = gibbs_sample(1) #The sample of the hidden nodes, starting from the visible state of x h = sample(tf.sigmoid(tf.matmul(x, W) + bh)) #The sample of the hidden nodes, starting from the visible state of x_sample h_sample = sample(tf.sigmoid(tf.matmul(x_sample, W) + bh))


    size_bt = tf.cast(tf.shape(x)[0], tf.float32) W_adder = tf.mul(lr/size_bt, tf.sub(tf.matmul(tf.transpose(x), h), tf.matmul(tf.transpose(x_sample), h_sample))) bv_adder = tf.mul(lr/size_bt, tf.reduce_sum(tf.sub(x, x_sample), 0, True)) bh_adder = tf.mul(lr/size_bt, tf.reduce_sum(tf.sub(h, h_sample), 0, True)) #When we do sess.run(updt), TensorFlow will run all 3 update steps updt = [W.assign_add(W_adder), bv.assign_add(bv_adder), bh.assign_add(bh_adder)]

      5.接下来,运行 Graph 算法图:

    with tf.Session() as sess: #First, we train the model #initialize the variables of the model init = tf.initialize_all_variables() sess.run(init)

        首先需要 reshape 每首歌,以便于相应的向量表示可以更好地被用于训练模型。

    for epoch in tqdm(range(num_epochs)): for song in songs: #The songs are stored in a time x notes format. The size of each song is timesteps_in_song x 2*note_range #Here we reshape the songs so that each training example is a vector with num_timesteps x 2*note_range elements song = np.array(song) song = song[:np.floor(song.shape[0]/num_timesteps)*num_timesteps] song = np.reshape(song, [song.shape[0]/num_timesteps, song.shape[1]*num_timesteps])
        5.2接下来就来训练 RBM 模型,一次训练一个样本
    for i in range(1, len(song), batch_size): tr_x = song[i:i+batch_size] sess.run(updt, feed_dict={x: tr_x})

        模型完全训练好后,就可以用来生成 music 了。

        5.3需要训练 Gibbs chain

        其中的 visible nodes 先初始化为0,来生成一些样本。      然后把向量 reshape 成更好的格式来 playback。

    sample = gibbs_sample(1).eval(session=sess, feed_dict={x: np.zeros((10, n_visible))}) for i in range(sample.shape[0]): if not any(sample[i,:]): continue #Here we reshape the vector to be time x notes, and then save the vector as a midi file S = np.reshape(sample[i,:], (num_timesteps, 2*note_range))
    midi_manipulation.noteStateMatrixToMidi(S, "generated_chord_{}".format(i))

        综上,就是用 CNN 来参数化地生成音波,      用 RBM 可以很容易地根据训练数据生成音频样本,      Gibbs 算法可以基于概率分布帮我们得到训练样本。


    本文基于Siraj 的视频编写,此处提供视频链接以及github源码供参考。




