(1)参考答案详见:https://blog.csdn.net/jackmcgradylee/article/details/77778001 (2)参考答案详见:https://blog.csdn.net/qq_23418043/article/details/82686117
词向量也称为词嵌入,是指将词转换成为向量的形式。 word2vec从实现方法来看分为两个大的框架:一、Hierarchical Softmax模型框架;二、Negative Sampling模型框架。
a.Early stopping b.Dropout c.正则化 d.数据集扩增 https://blog.csdn.net/heyongluoyao8/article/details/49429629
https://blog.csdn.net/weixin_41537599/article/details/80585201
https://blog.csdn.net/lreaderl/article/details/78022724 GRU作为LSTM的一种变体,将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态,加诸其他一些改动。最终的模型比标准的 LSTM 模型要简单,也是非常流行的变体。 使用LSTM的原因之一是解决RNN Deep Network的Gradient错误累积太多,以至于Gradient归零或者成为无穷大,所以无法继续进行优化的问题。GRU的构造更简单:比LSTM少一个gate,这样就少几个矩阵乘法。在训练数据很大的情况下GRU能节省很多时间。
sigmoid, tanh, Relu ,swish(性能优于Relu),softmax等 http://www.360doc.com/content/17/1102/21/1489589_700400500.shtml
有三层网络:Input层,一层隐藏层,output输出层
https://www.jianshu.com/p/79bd982ea6c4?from=timeline
a.加快收敛速度 b.提高预测精度