深度学习 – Shijinglei's Home

2025年10月15日

position_embedding部署时的注意点

对于position_embedding，在使用模型进行推理或者部署时，可以将只依赖position_embedding的模块进行固化，如position_embedding后面接一个全连接层进行一个映射，可以将这个全连接层的结果固化下来，因为在推理或部署时，因为position_embedding或者全连接层都不会进行参数更新了，所以结果是固定的，因此可以将结果直接固化，减少了一些的计算量。

2020年8月15日

Keras获取网络层的信息

设km为用keras的网络，km.layers得到该网络各层组成的列表。

获取第0层 km.layers[0]

获取第0层网络的类型type(km.layers[0])

获取第0层网络的信息 km.layers[0].get_config()

获取第0层网络的权重参数（如果有的话） km.layers[0].get_weights()[0]

2020年5月26日

pytorch 载入预训练网络部分权重

首先weight_dict = torch.load(‘path_to_weight’)读取预训练网络的权重键值。

然后获取当前网络的权重键值
model_dict = model.state_dict() #model为当前定义的网络

最关键一步，根据键命名筛选出需要载入的部分权重。当前网络中要载入权重的部分，命名要与预训练网络相同
weight_dict = {k:v for k, v in weight_dict.items() if k in model_dict}

更新当前网络的键值字典
model_dict.update(weight_dict)

最后载入该键值字典到网络中
model.load_state_dict(model_dict)

2020年1月15日

台大李宏毅老师DL/RL学习资料

最近学习强化学习，发现台湾大学教授李宏毅老师关于DL/RL的课讲的非常好。这里贴上一个链接，里面有这门课的资料，包括课件、视频等等，赶紧收藏起来

http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

2019年12月21日2019年12月23日

tensorflow调试的一种方式

由于tensorflow采用构建图，在会话中再运行图的方式，使得调试非常麻烦。尤其是想获取网络中间某个tensor的时候。对此，可以采用以下方法

在构建完成网络所有结构之后，G = tf.get_default_graph()获取图，然后使用tensr = G.get_tensor_by_name(“TensorName:0”)的方式获取想要的tensor，再sess.run该tensor就可以获取它的值了。TensorName可以通过查看网络ckpt、pb文件的方式获取。

2019年11月27日

tensorflow 将ckpt文件导出为pb文件

tensorflow训练时将模型保存为ckpt文件，它包含了网络结构、网络权重、训练过程中间变量等等信息。而网络部署一般是使用pb文件，它将变量保存为常量，以及网络前向传播的所有必要结构。如何将ckpt文件导出为pb文件？

首先，使用tfrecord训练的ckpt一般包含读取训练tfrecord文件的结构，而这是pb文件所不需要的。pb文件通常使用placeholder接受输入。因此，要以placeholder为输入重新定义一遍网络结构（通常就是调用一次网络构建函数）。假设为
output = xxnet(input_placeholder)
要获取输出节点的名称
output_nd_name = output.op.name

然后，载入ckpt的权重
saver = tf.train.Saver()
saver.restore(sess, “xxnet.ckpt”)

然后，将其中的变量转化为常量，保存模型

out_graph_def = tf.graph_util.convert_variables_to_constants(
    sess=sess,
    input_graph_def=sess.graph_def,
    output_node_names=[output_nd_name]
)
with tf.gfile.GFile("xxnet.pb","wb") as f:
    f.write(out_graph_def.SerializeToString())

分类：深度学习

position_embedding部署时的注意点

pytorch统计模型计算量和参数量

Keras获取网络层的信息

pytorch 载入预训练网络部分权重

台大李宏毅老师DL/RL学习资料

pytorch 添加c++实现的自定义op

tensorflow 获取所有tensor、op的name

tensorflow调试的一种方式

tensorflow 导入pb模型进行前向推导

tensorflow 将ckpt文件导出为pb文件

2026 年 4 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30