对于给定的下面的一段python程序。已知D是W与X的点乘,且W为参数矩阵,X为样本矩阵,则空格中应该填入的数值是 import numpy as np # 正向传播 W = np.random.randn(5, ) X = np.random.randn(10, 2) D = W.dot(X)
A.10
B.5
C.2
D.1
A.10
B.5
C.2
D.1
A、如果类的成员变量与方法中的局部变量名相同,那么可以在方法中通过this关键字调用成员变量
B、只能在构造方法中使用this调用其他的构造方法
C、在构造方法中使用this调用构造方法的语句必须是该方法的第一条执行语句,且只能出现一次
D、可以在一个类的两个构造方法中使用this互相调用
A、两个随机变量X,Y的联合分布的熵
B、条件熵H(X|Y)表示在已知随机变量Y的条件下随机变量X的不确定性
C、H(X|Y)= H(X, Y) - H(Y),即条件熵H(X|Y)是(X, Y)的联合熵,减去Y单独发生包含的熵
D、用于表征两个变量概率分布的差异性 。
A、隐藏层之间的节点有连接
B、隐藏层之间的节点没有连接
C、隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出
D、网络会对之前时刻的信息进行记忆并应用于当前输出的计算中
A、梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)
B、批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新
C、随机梯度下降法不同于批量梯度下降,是每次迭代使用一个样本来对参数进行更新
D、小批量梯度下降法是对批量梯度下降以及随机梯度下降的一个折中办法。更新参数时使用一部分训练样本。一般将训练样本集分成若干个batch,每个batch包含m个样本。每次更新都利用一个batch的数据,而非整个训练集
A、LSTM是简化版的RNN
B、LSTM是双向的 RNN
C、LSTM是多层的RNN
D、LSTM是RNN的扩展,其通过特殊的结构设计来避免长期依赖问题
A、长短期记忆网络LSTM
B、卷积神经网络CNN
C、多层感知机MLP
D、受限玻尔兹曼机
A、一般需要一个 sigmoid 神经网络层和一个 pointwise 乘法操作
B、一般需要一个 sigmoid 神经网络层和一个 pointwise 加法操作
C、一般需要一个 tanh 神经网络层和一个 pointwise 乘法操作
D、一般需要一个 tanh 神经网络层和一个 pointwise 加法操作
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!