0%

STL 中的算法都很精妙,有很多实现值得我们细究和学习。

阅读全文 »

神经网络虽然在多个领域取得了非常巨大的成就,但是其本质是大量参数的拟合和泛化,如果想处理更加复杂的任务,在没有过拟合的情况下,增加训练数据和加大网络规模无疑是简单有效的手段。现实情况就是这么做的,但是巨大的参数量和复杂的网络结构造成了两个主要的问题:模型体积和运算速度。这两个问题会带来诸如内存容量,内存存取带宽,移动端还有电量消耗等一系列问题,大大限制了神经网络的应用场景。

阅读全文 »

cuda 中核函数执行使用多线程并行(SIMD)的方式,同时计算多个数据,因此核函数的线程管理以及相应的任务分配就显得尤为重要。

阅读全文 »

CUDA 函数前缀作为 CUDA 编程中一种特殊的使用技巧,其具有一定的限制意义。

阅读全文 »

标准日志库 logging 即使不是 Python 中最好的日志库,也是使用最多的日志库了,我个人非常喜欢。本文较为全面的总结了 logging 库的知识点。

阅读全文 »

TensorRT(TRT) 作为一种能显著加快深度学习模型 inference 的工具,如果能够较好的利用,可以显著提高我们的 GPU 使用效率和模型运行速度。

阅读全文 »