2019-06-09

Python实现BP网络并进行语音识别（二）

前言

BP算法作为神经网络的经典算法，理解其原理非常重要，我将从原理开始讲起，然后过渡到代码实现。

一：BP算法

1.1 反向传播算法和 BP 网络简介

误差反向传播算法简称反向传播算法（即 BP 算法）。反向传播算法于1986 年由 David E. Rumelhart和 James L. McClelland 发表于书籍 Parallel Distributed Processing 中。使用反向传播算法的多层感知器又称为 BP 神经网络。
BP 算法是一个迭代算法，它的基本思想为：
(1) 先计算每一层的状态和激活值，直到最后一层（即信号是前向传播的）；
(2) 计算每一层的误差，误差的计算过程是从最后一层向前推进的（这就是反向传播算法名字的由来）；
(3) 更新参数（目标是误差变小），迭代前面两个步骤，直到满足停止准则（比如相邻两次迭代的误差的差别很小）。

下面以三层感知器（即只含有一个隐藏层的多层感知器）为例介绍“反向传播算法（BP 算法）”。

三层感知器如图 1 所示。例子中，输入数据 $X=\left(x_1,x_2,x_3\right)^T$是 3 维的。对于第一层，可以认为$(a_i^1=x_i)$唯一的隐藏层有 3 个节点，输出数据是 2 维的。

1.2 信息前向传播

显然，图 1 所示神经网络的第 2 层神经元的状态及激活值可以通过下面的计算得到：

$z_1^2=W_{11}^2x_1+W_{12}^2x_2+W_{13}^2x_3+b_1^2$ $z_2^2=W_{21}^2x_1+W_{22}^2x_2+W_{23}^2x_3+b_2^2$ $z_3^2=W_{31}^2x_1+W_{32}^2x_2+W_{33}^2x_3+b_3^2$ $a_1^2=f\left(z_1^2\right)$ $a_2^2=f\left(z_2^2\right)$ $a_1^2=f\left(z_1^2\right)$

类似地，第 3 层神经元的状态及激活值可以通过下面的计算得到：

$z_1^3=W_{11}^3x_1+W_{12}^3x_2+W_{13}^3x_3+b_1^3$ $z_2^3=W_{21}^3x_1+W_{22}^3x_2+W_{23}^3x_3+b_2^3$ $a_1^3=f\left(z_1^3\right)$ $a_2^3=f\left(z_2^3\right)$

可总结出，第$l\left(2\le l\le L\right)$层神经元的状态及激活值为（下面式子是向量表示形式）：

$z^l=W^la^{l-1}+b^l$ $a^l=f\left(z^l\right)$

对于$L$层感知器，网络的最终输出为 $a^L$。前馈神经网络中信息的前向传递过程如下：

$x=a^1\rightarrow z^2\rightarrow\ldots\rightarrow a^{L-1}\rightarrow z^L\rightarrow a^L=y$

1.3 误差反向传播
“信息前向传播”讲的是已知各个神经元的参数后，如何得到神经网络的输出。但怎么得到各个神经元的参数呢？“误差反向传播”算法解决的就是这个问题。假设训练数据为$\left(x^1,y^1\right),\left(x^2,y^2\right),\ldots\left(x^i,y^i\right),\ldots,\left(x^N,y^N\right)$，即输入数据为N维。又假设输出数据为$n_L$维，即 $y^i=\left(y_1^i,\ldots,y_{n_L}^i\right)^T$ ，网络输出为$z^i$。此时对于某一层数据$\left(x^i,y^i\right)$来说，其误差计算函数可以用标准差函数表示：

$E_i=\sum_{k=1}^{n_L}\left(y_k^i-z_k^i\right)^2$

显然总体误差可以表示为

$E_{total}=\frac{1}{N}\sum_{i=1}^{N}E_i$

我们的目标是调整权重和偏置函数使总体误差变小，求得当总体误差最小时对应的各神经元的参数（权重和偏置）。
采用常见的梯度下降法，可以用下面公式更新参数$W_{ij}^l$,$b_i^l$,$2\le l\le L$：

$W^l=W^l-\mu\frac{\partial E_{total}}{\partial W^l}\\ =W^l-\frac{\mu}{N}\sum_{i=1}^{N}\frac{\partial E_i}{\partial W^l}$ $b^l=b^l-\mu\frac{\partial E_{total}}{\partial b^l}\\=b^l-\frac{\mu}{N}\sum_{i=1}^{N}\frac{\partial E_i}{\partial b^l}$

由上式推导可知，只要知道每一个训练数据的误差$E_i$对参数的偏导数 ,即可得到参数的迭代更新公式。

1.3.1权重参数更新

对于所有有输入的层，包括中间层和输出层为表示方便，设E=Ei,y=yi，z=zi，都有：

$E=\sum_{k=1}^{N_L}\left(y_k-z_k\right)^2$

以图1 Layer3 z1为例

$E=\left(y_1-f\left(w_{11}^3a_1^2+w_{12}^3a_2^2+w_{13}^3a_3^2\right)\right)^2$

对其求偏导，有：

$\frac{\partial E}{\partial w_{11}^3}=2\left(y_1-z_1\right)\left(-\frac{\partial o_1}{ {\partial w}_{11}^3}\right)\\ =-2\left(y_1^3-a_1^3\right)f^\prime\left(z_1\right)a_1^2\\ =-\left(y_1^3-a_1^3\right)f^\prime\left(z_1\right)a_1^2$

如果我们把$\frac{\partial E}{\partial z_i^l}$记为$\delta_i^l$，即：

$\delta_i^l\equiv\frac{\partial E}{\partial z_i^l}$

则$\frac{\partial E}{\partial w_{11}^3}$可以表示为：

$\frac{\partial E}{\partial w_{11}^3}=\frac{\partial E}{\partial z_1^3}\frac{\partial z_1^3}{\partial w_{11}^3}\\=\delta_1^3a_1^2$

在layer2 z1中同理也有

$\frac{\partial E}{\partial w_{11}^2}=\frac{\partial E}{\partial z_1^2}\frac{\partial z_1^2}{\partial w_{11}^2}\\=\delta_1^2a_1^1$

其中我们发现，BP网络是全连接的，即若对$\delta_i^j$向后展开，可以得到：

$\delta_i^l\equiv\frac{\partial E}{\partial z_i^l}=\sum_{j=1}^{n_{l+1}}{\frac{\partial E}{\partial z_j^{l+1}}\frac{\partial z_j^{l+1}}{\partial z_i^l}}\\=\sum_{j=1}^{n_{l+1}}{\delta_j^{l+1}w_{ij}^{l+1}}f^\prime\left(z_i^l\right)\\=(\sum_{j=1}^{n_{l+1}}{\delta_j^{l+1}w_{ij}^{l+1})}f^\prime\left(z_i^l\right)$

上式是BP算法的核心，它利用第l+1层的$\delta_j^{l+1}$计算第l层的$\delta_j^l$，也是“误差反向传播算法”的名字由来。

1.3.2偏置参数更新

$\frac{\partial E}{\partial b_i^j}=\frac{\partial E}{\partial z_i^l}\frac{\partial z_i^l}{\partial b_i^l} =\delta_i^l$

1.3.3 BP网络的四个核心算法

$\delta_i^l=-\left(y_i-a_i^L\right)f^\prime\left(z_i^L\right)\\\delta_i^l=(\sum_{j=1}^{n_{l+1}}{\delta_j^{l+1}w_{ij}^{l+1})}f^\prime\left(z_i^l\right)\\\frac{\partial E}{\partial w_{ij}^l}=\delta_i^la_j^{l-1}\\\frac{\partial E}{\partial b_i^l}=\delta_i^l$

2 python代码实现BP算法

通过上面数学推导，我们已经知道关键参数如何设置，废话不多说，直接上代码

# -*- coding: utf-8 -*-
"""
Created on Fri Jun  7 09:20:40 2019

@author: lei
"""

import math
import random
import pickle
random.seed(0)


def rand(a, b):
    return (b - a) * random.random() + a


def make_matrix(m, n, fill=0.0):
    mat = []
    for i in range(m):
        mat.append([fill] * n)
    return mat


def sigmoid(x):
    return 1.0 / (1.0 + math.exp(-x))


def sigmoid_derivative(x):
    return x * (1 - x)


class BPNeuralNetwork:
    def __init__(self):
        self.input_n = 0            #输入层数量
        self.hidden_n = 0           #隐藏层
        self.output_n = 0           #输出层
        self.input_cells = []       #输入矩阵
        self.hidden_cells = []      #隐藏层矩阵
        self.output_cells = []      #输出矩阵
        self.input_weights = []     #输入权重矩阵
        self.output_weights = []    #输出权重矩阵
        self.input_correction = []  #输入矫正矩阵
        self.output_correction = [] #输出矫正矩阵
        self.train_acc = .0         #训练集准确率
        self.test_acc = .0          #测试集准确率

    def setup(self, ni, nh, no):
        self.input_n = ni + 1
        self.hidden_n = nh
        self.output_n = no
        # init cells
        self.input_cells = [1.0] * self.input_n     #输入层节点初始化
        self.hidden_cells = [1.0] * self.hidden_n   #隐藏层节点初始化
        self.output_cells = [1.0] * self.output_n   #输出层节点初始化
        # init weights
        self.input_weights = make_matrix(self.input_n, self.hidden_n)
        #输入层权重初始化
        self.output_weights = make_matrix(self.hidden_n, self.output_n)
        #输出层权重初始化
        
        # 随机填充参数
        for i in range(self.input_n):
            for h in range(self.hidden_n):
                self.input_weights[i][h] = rand(-0.2, 0.2)
        for h in range(self.hidden_n):
            for o in range(self.output_n):
                self.output_weights[h][o] = rand(-2.0, 2.0)
        # 初始化矫正矩阵
        self.input_correction = make_matrix(self.input_n, self.hidden_n)
        self.output_correction = make_matrix(self.hidden_n, self.output_n)

    def predict(self, inputs):
        # 激活输入层
        for i in range(self.input_n - 1):
            self.input_cells[i] = inputs[i]
        # 激活隐藏层
        for j in range(self.hidden_n):
            total = 0.0
            for i in range(self.input_n):
                total += self.input_cells[i] * self.input_weights[i][j]
            self.hidden_cells[j] = sigmoid(total)
        # 激活输出层
        for k in range(self.output_n):
            total = 0.0
            for j in range(self.hidden_n):
                total += self.hidden_cells[j] * self.output_weights[j][k]
            self.output_cells[k] = sigmoid(total)
        return self.output_cells[:]

    def back_propagate(self, case, label, learn, correct):
        # 前向反馈
        self.predict(case)
        # 得到输出层误差
        output_deltas = [0.0] * self.output_n
        for o in range(self.output_n):
            error = label[o] - self.output_cells[o]
            output_deltas[o] = sigmoid_derivative(self.output_cells[o]) * error
        # 得到隐藏层误差
        hidden_deltas = [0.0] * self.hidden_n
        for h in range(self.hidden_n):
            error = 0.0
            for o in range(self.output_n):
                error += output_deltas[o] * self.output_weights[h][o]
            hidden_deltas[h] = sigmoid_derivative(self.hidden_cells[h]) * error
        # 更新输出权重
        for h in range(self.hidden_n):
            for o in range(self.output_n):
                change = output_deltas[o] * self.hidden_cells[h]
                self.output_weights[h][o] += learn * change + correct * self.output_correction[h][o]
                self.output_correction[h][o] = change
        # 更新输入权重
        for i in range(self.input_n):
            for h in range(self.hidden_n):
                change = hidden_deltas[h] * self.input_cells[i]
                self.input_weights[i][h] += learn * change + correct * self.input_correction[i][h]
                self.input_correction[i][h] = change
        # 得到全局误差
        error = 0.0
        for o in range(len(label)):
            error += 0.5 * (label[o] - self.output_cells[o]) ** 2
        return error
		
    def get_precise_rate(self,cases,labels):
		#得到结果准确率
        right_num=0
        length=len(labels)
        for i in range(length):
            predict=self.predict(cases[i])
            predict.index(max(predict))
			#返回最大可能的索引值，所以只支持one Hot编码模式
            if predict.index(max(predict))==labels[i].index(max(labels[i])):
                right_num+=1
        return right_num/length

    def train(self, train_list, test_list, limit=10000, learn=0.05, correct=0.1):
        self.train_acc=.0
        self.test_acc=.0
        for j in range(limit):
            error = 0.0
            for i in range(len(train_list[0])):
                label = train_list[1][i]
                case = train_list[0][i]
                error += self.back_propagate(case, label, learn, correct)
                #print("第%d轮，训练次数：%d"%(j,i),end='\r')
            self.train_acc=self.get_precise_rate(train_list[0],train_list[1])
            self.test_acc=self.get_precise_rate(test_list[0],test_list[1])
            print("训练次数：%d,train_acc:%f,test_acc%f"%(j,self.train_acc,self.test_acc),end='\r')

    def save(self,fliename):
        f=open(fliename,'wb')
        pickle.dump(self, f)#使用python自带pickle模块保存
        f.close()
		
    def load(self,fliename):
        f = open(fliename, 'rb')

        return pickle.load(f)#返回模型
	
    def test(self):
	#一个简单的异或学习例子
        cases = [
            [0, 0],
            [0, 1],
            [1, 0],
            [1, 1],
        ]
        labels = [[0], [1], [1], [0]]
        self.setup(2, 5, 1)
        self.train(cases, labels, 10000, 0.05, 0.1)
        for case in cases:
            print(self.predict(case))


 if __name__ == '__main__':
     nn = BPNeuralNetwork()
     nn.setup(20,200,3)
     nn.train(x)
     nn.test()