深度强化学习架构与微宏观混合环境控制代理的 Micro-LED背光模组

时间：2022-03-28来源：佚名

半导体产业网：本文提出了一种具有分布式布拉格反射器 (DBR) 结构的 Micro-LED 背光模块，以实现出色的 Micro-LED 背光模块性质，并使用深度强化学习 (DRL) 架构进行光学设计。在DRL架构中，针对微观和宏观两种极端结构的计算环境问题，本篇提出了环境控制代理和虚拟现实工作流程来保证设计环境参数与实验结果高度相关。本文通过上述方法成功设计了具有DBR结构的Micro-LED背光模块。采用DBR结构的Micro-LED背光模块相比没有DBR的Micro-LED背光模块，均匀度性能提升32%，DRL方法所需的设计计算时间仅为传统光学仿真的17.9%。

随着近几十年半导体制程技术的发展，具有优良直接能隙特性的三五族化合物半导体已广泛应用于大功率电子、照明、显示技术等各个领域。发光二极管 (LED) 在显示技术中应用最为广泛。以LED为显示光源的背光显示技术带来了优于传统显示解决方案的能源应用效率和更好的色彩质量，并引导整个显示产业到更薄的设计。

近十年来，2010年推出的LED背光显示技术已在全球市场得到广泛认可。未来有一个更精确的蓝图：更高的能源应用效率，更高的色彩饱和度，以及具有超高对比度度控制能力的Micro-LED背光模块。Micro-LED背光模块在为前瞻显示带来诸多优势的同时，也带来了许多新颖的挑战和创新机会。例如，通过在NCTU SCLAB研究奈米球光罩蚀刻技术，可以减轻在制程阶段由薄外延设计产生的量子局限史塔克效应(QCSE)。由于芯片尺寸比，照明角度设计区域受到限制，提出了新的低光损耗光学设计挑战。相当多的研究成果也测量了整体背光设计的间接物理参数。设计具有高均匀性和低功耗的Micro-LED模块在今天仍然是一项重大挑战。

此外，由于量子点材料可以显著提升显示器的色彩质量，量子点色彩转换技术也是前瞻性显示技术中一项极为重要且被广泛讨论的技术。在过去的半个世纪中，许多成熟的光学设计方法和物理概念已经建立并用于各种研究工作。在LED领域，对不同尺度的物理模型进行了大量的研究和分析。但是，由于宏观尺度和微观尺度的具体表现分别是粒子和波，在进行光学设计时，往往不可能同时进行宏观尺度和微观尺度的设计。由于晶粒结构的微观尺度和背光模块的宏观尺度都存在于Micro-LED模块中，这种现象已成为追求超薄设计的Micro-LED模块的一个挑战。

本文构建了一套光学编程程序，并介绍了一种环境控制代理技术来控制宏观和微观尺度。此外，由于传统的优化计算方法，如差分进化算法和基因算法，都是rule-based的算法，具有可解释性和使用较少超参数的特点。这种方式虽然方便开发者使用，但对于可变性较大的主题，应用起来难度更大。

相反，由大量数据驱动的数据驱动算法有很多超参数来解决各种变化的问题。为了实现高度适应性的解决方案，避免过度敏感的搜索过程导致无法找到全局最大值或最小值，本研究提供人工智能深度强化学习技术，并采用Google DeepMind的double DQN（DDQN）架构作为核心网络创建人工智能光学设计代理以实现最佳光学设计。深度强化学习 (DRL) 和环境控制代理技术在本研究中得到充分实现。此外，基于人工智能模型的推理结果，成功生产出超薄、高效、高均匀度的Micro-LED模块。

实验与算法设计

1.Micro-LED 模块及光学介绍

在前瞻显示应用中，Micro-LED背光模块是当前的主流发展技术，一个完整的Micro-LED背光模块如图1所示。主要结构包括基板、接收平面；LED数组，其波长光谱呈高斯分布，光谱峰值为445nm，光谱宽度为18nm；以及LED的结构设计。

在本文中，选择分布式布拉格反射器（DBR）结构作为控制LED发光角度的结构，如图1（b）所示，覆盖LED数组下方的每个LED。在这种模块结构中，当光从LED发射到接收器平面时，有四种主要类型的光学事件。

(1) 通过DBR结构发射到接收平面：LED发出的光入射到DBR结构的角度没有达到全内反射角。因此，它遵循Snell's Law并通过折射进入接收器平面。

(2)直接射入接收平面：LED产生的光直接射入接收平面，不经过任何物体。

(3)从DBR结构反射光线：当光入射到DBR的角度达到全内反射角(TIR)并进入接收平面时，产生反射光。

(4)从接收平面反射光线：当光线进入接收平面时会产生反射光。

由于上述四个光学事件，光会在接收器平面、DBR和基板之间产生许多反射事件。如果反射没有入射到完全反射的表面上，则会导致光学系统中的能量损失。

为了降低损耗，在模块设计中，如图1（c）所示，在基板表面使用高反射率涂层进行涂层，并使用蚀刻图案的扩散板作为接收平面，如图1（d）所示。为了减少能量损失，基板上涂有厚的 TiO2 层。在完成模块的框架设计后，在设计Micro-LED背光模块时应考虑的重要变量如图1(a)和图1(b)所示。

(1)距离(D)：基板与接收器平面之间的距离

(2)间距(S)：LED芯片之间的间距

(3)宽度(W)：LED的宽度

(4) DBR对数(DBR)：DBR对数数量

本研究将为架构的四个变量设计开发一种优化方法。

深度强化学习架构与微宏观混合环境控制代理的 Micro-LED背光模组

2.整体设计工作流程

如图2所示，我们提供了一套全面的设计方法，以实现完美的模拟和优化结果，这个设计过程分为两个主要模块，一种是深度强化学习的优化引擎。该模块的任务是在受控环境中优化人工智能代理的设计，另一个核心模块是模拟验证，如图2(b)。此验证旨在确保设计模型的环境与实际现场一致。因此，差距小到足以在模拟设计和实现之间具有足够程度的可靠性。

图 2(a) 显示了两个核心模块组成了优化引擎，即设计代理和环境。设计代理每次向环境发出指定动作执行后，环境将环境状态和奖励报告给设计代理。设计代理中的算法网络学习深度神经网络（DNN）并引导策略函数给出动作。当奖励饱和时，经过多次迭代，可以获得光学设计优化。本文使用的神经网络模型是Google 2015年发布的double deep Q-learning（DDQN）网络模型，以ε-greedy为优化任务的核心。另一个对设计结果有重大影响的部分是强化学习架构中的环境。由于Micro-LED背光模块既有奈米级结构也有毫米级模块结构，因此必须兼顾宏观和微观的操作。一般来说，波动光学在微观尺度的计算中占主导地位；本文使用 Synopsys的R-soft软件进行计算。另一方面，宏观尺度计算一般采用几何光学进行光学计算；本文采用Synopsys的LightTools软件进行计算。虽然有精密的计算器辅助工程(CAE)工具可以分别处理微观和宏观问题，但Micro-LED背光模块必须同时处理两个极端维度，因此我们添加了环境控制代理的概念和容器进入环境，如图 2(a) 中的环境所示。我们在环境设计中分别设置LightTools和R-soft运行所需的环境和数据库，然后利用环境代理程序对两个容器任务进行协同调度。通过环境控制代理和独立容器设置，可以有效解决超大规模计算问题。在完成基于环境控制代理和容器的环境架构后，如图2（b）所示，为完成高可靠性模拟，我们在虚拟环境和实际场景之间进行两组极端环境单项参数验证，我们称之为虚拟现实实验。在虚拟现实实验中，我们将完成的Micro-LED 数组样本图像与 LightTools 仿真图像进行比较，并通过验证量化差异以获得最佳的现实参数组合。同样，我们也使用完成的具有 DBR 结构的Micro-LED与 R-soft的仿真结果图像进行比较，并通过验证量化差异，以获得最佳的现实参数组合。本文将使用图2(a)的优化架构和图2(b)的沉浸式环境设置来设计高可靠性的micro-LED背光模块。

深度强化学习架构与微宏观混合环境控制代理的 Micro-LED背光模组

3.建立环境控制代理

建立环境的工作流程如图3（a）所示。首先，我们实现了第一批Micro-LED背光模块原型，使用CMOS传感器捕获图像，并使用单芯片和芯片数组图像作为优化仿真参数的基准。另一方面，DBR和Micro-LED背光模块的光学仿真模型分别使用R-soft和LightTools建立。有六组实验组合：

(1) 背光模块中没有DBR的单个氮化镓

(2) 背光模块中带有2.5对DBR的单个氮化镓

(3) 背光模块中带有5.5对DBR的单个氮化镓

(4) 背光模块中没有 DBR 的氮化镓数组

在仿真中，背光模块的底部反射率和接收器反射率是必不可少的系统变量。为了建立接近准确的环境参数，实际样品的光学反射特性通常具有散射特性。反射光的散射方式大致分为Gaussian type（反射光的主方向与法线的夹角与入射角一致）和Lambertian type（任意入射角的反射光沿法线散射）如图3（b）所示。我们对两种散射模式和五个变量（Gaussian type 0°、Gaussian type 5°、Gaussian type 10°、Gaussian type 15°和Lambertian type）的底部反射率和接收器反射率进行了模拟计算。散射模型示意图如图3(b)所示。底部反射率和接收器反射率的可变区间分别为93%~99%和20%~40%；完成模拟计算后，计算模拟的结果矩阵输出和CMOS采集的图像进行验证，如图2（b）所示。计算式使用均方误差计算，如方程式(1):

深度强化学习架构与微宏观混合环境控制代理的 Micro-LED背光模组

其中N是图像中的像素总数，i是像素索引，ImgS是仿真生成的图像，ImgC是通过CMOS传感器采集的图像。

在完成虚拟现实实验的MSE计算后，我们将MSE最小时的参数组合作为环境模型的基本参数。该方程表示为方程式(2):

深度强化学习架构与微宏观混合环境控制代理的 Micro-LED背光模组

在完成环境参数值后，我们分别在PC2和PC3计算器中建立了微观尺度和宏观尺度的环境。PC2基于微尺度构建计算核心，其环境称为container2。container2中的计算内核为薄膜光学，主数据库为薄膜数据库，包含各种薄膜材料特性值，如折射率n、消光系数α等。另一方面，PC3构建了一个基于宏观尺度的计算核心，其环境称为container1。container1中的计算内核是蒙地卡罗光线追踪技术，主要数据库是材料数据库和双向散射分布函数（BSDF）数据库。container2 的计算生成了这个数据库，如图 3(c) 所示。当入射光进入薄膜表面时，会发生反射和折射。由于薄膜表面不是完全平坦的，无论是反射还是折射，都会产生散射的能量分布。BSDF数据库记录了由不同入射角的光线入射到薄膜堆上所产生的反射散射和折射散射的强度和角度分布。微观尺度和宏观尺度的光学问题，分别可以通过container1和container2的计算来处理。完成PC2和PC3环境搭建后，两个计算引擎无法进行敏感传输。本文介绍了PC1 的环境控制代理程序，如图3（a）所示。该程序将强化学习的指令转移到PC2和PC3的工作调度；该方法可以同时将强化学习的动作分配给PC2和PC3进行并行处理和优化处理，或者直接将微观和宏观尺度的状态组织成统一的格式输出到强化学习进行运算。

4.动作函数、状态函数、奖励函数的定义

从图2(a)可以看出，在强化学习中，环境和设计代理之间定义三个函式，动作、状态和奖励。参考图1(a)和1(b)的示意图中的设计参数，我们将动作函数定义为表 1。对于上下调整的五种变化，我们定义了a1-a10的动作函数。我们还针对五种变化状态定义了S1到S5的状态函数，如表2所示。最后，参考背光模块均匀度的定义，我们设置了三个不同的奖励函数为方程式(3)-(5):

深度强化学习架构与微宏观混合环境控制代理的 Micro-LED背光模组