丛林、王国俊：人工智能若何打破“黑箱”？_人工智能_模子

2024-09-16 09:56:03 智能问答

本文选自《复旦金融评论》08期《人工智能如何打破“黑箱”？——对付大数据剖析和资管行业的赋能》

丛林、王国俊：人工智能若何打破“黑箱”？_人工智能_模子智能问答

作者：丛林康奈尔大学约翰逊商学院Rudd家族管理学讲席教授、金融学副教授；王国俊同济大学经济与管理学院金融硕士导师

公众年夜众号：复旦金融评论

以人工智能技能开拓商业大数据，实现投资组合管理优化。

一贯以来，科技进步都是推动资管行业发展的主要力量。
随着大数据等技能的发展，人工智能时期离我们越来越近，新的科技也对传统的投资组合管理方法提出了寻衅。

过去70年来，投资财富管理领域一贯由诺贝尔经济学奖得主哈里·马科维茨（Harry M. Markowitz）引领的均值-方差优化法(mean-variance optimization) 占主导地位。
大数据时期，这一方法面临明显的瓶颈。

这一传统方法哀求投资者首先对资产回报的分布进行估算，再根据风险收益偏好和操作便捷程度进行决策。
由于第一步估算存在严重偏差，且无法系统性地考虑到投资者动态资金局限和交易本钱等成分，该方法一贯为人所诟病。
同时，当代金融数据具有高维度、高噪声、非线性等特点，传统计量经济学手段对付数据中的信息提取十分有限，很难把握个中的非平稳动态和繁芜的交互浸染。
不过，现在AlphaGo、Siri等人工智能中的深度神经网络强化学习模型可以有效办理这些问题，大数据和人工智能技能的发展为投资财富管理决策供应了新的思路和前景。

当前，大数据以前所未有的数量、维度和频率喷薄而出，并且在大量决策场景中以传统数据源（如调查或财务报告）的替代补充形式涌现。
这些原始数据具有繁芜且不规律的构造（如卫星图片、语音和***、文本、移动足迹等）。
与此同时，机器学习与人工智能算法作为大数据剖析方法大量呈现。
随着大数据与人工智能迅速渗透到社会生活的各个层面，传统上依赖人为判断的决策受到深刻影响，如雇用决定、贷款赠款、刑事讯断、财务建议等。

数据天生办法和“黑箱”问题限定AI赋能金融

虽然科技的发展催生了大量的数据，但社会科学中的数据天生过程不同于自然科学中的数据天生。
虽然高维和非线性的金融数据与科学和工程学中的大数据高度相似，但与科学数据比较，业务或财务数据每每具有更低的信噪比和更高的稀疏性，并伴有较多内生变量之间的交互浸染。

与此同时，我们必须认识到，与人体基因序列或自然科学事理不同，商业环境和市场在快速发展、高频演化，政策也随之不断变革，代际之间的行为也不尽相同。
我们不能将现有的机器学习软件包和大数据剖析盲目地投入对经济和金融问题剖析的运用。
经济大数据和机器学习的现有运用只能为模型的取信和调度供应有限的参考，许多方法必须在理解商业和经济学事理的根本上进行改良。

与此同时，基于大数据的人工智能算法常常被描述成一个无人理解的“黑箱”，人工智能算法的可阐明性问题时常被提起。
只管数据处理技能不断更新迭代，但人工智能和大数据剖析对历史数据仍存在严重依赖。
同时，大数据和人工智能模型每每对特殊工具，尤其是履历上处于不利地位的工具产生相称偏见（见表1）。

表1 有名人工智能系统的内在偏见

来源：ProPublica

例如，在图片识别模型的构建过程中，研究者须要对大量的图形文件手动标记并归类。
在一些人脸识别系统的演习过程中，由于少数族裔的图片数据缺失落，研究者创造模型可以精确识别近99%的白人测试者的性别，却只能精确识别65%的黑人测试者。
这样的偏差证明了人工智能的设计过程仍存在诸多问题和毛病。

在更严明的运用处景中，人工智能的潜在偏见可能造成严重后果。
在美国多州法律裁判中广泛利用的人工智能Compas系统表示了这类偏见的危害性。
在讯断及量刑过程中，Compas系统会根据嫌疑人对一系列问题的回答估计嫌疑人的“再犯率”。
在一些讯断中，Compas对有三次持械抢劫犯罪史的白人盗窃犯打出了3分（较低可能再犯），而对仅有四次未成年轻罪的黑人盗窃犯打出了8分（极有可能再犯）。
由于Compas系统算法及逻辑并未公开，该系统的利用虽然一定程度长进步了法律速率，但是仍旧造成了许多误判，并在美国法律界引起了争议。

人们常日将偏见问题归因于人工智能的演习数据。
然而算法设计职员对人工智能的校正以及人工智能的反馈很有可能加剧利用者的偏见。
这样的可能性并未引起模型设计者足够的重视。
从数据网络到理论假设，人工智能模型每每包含了大量由历史偏见、随机缺点和意识形态造成的偏差。
模型还可能迎合用户的沉迷和偏执而诱发不当行为。

办理此类问题首先要理解各种机器学习模型的经济学事理。
然而，大部分干系模型具有显著的“黑箱”特性，对付模型的因果关系及经济学事理释义仍十分有限。
这也影响了机器学习在经济、金融等社会科学运用中的推广。

“强化学习”优化投资组合

强化学习（Reinforcement Learning）是人工智能领域的主要分支。
在强化学习中，施教者通过设定策略网络来对模型根据环境做出的行动供应赏罚信息，以达到强化演习的目标。
强化学习在打算机视觉、语音识别、自动驾驶等领域已经得到了广泛的运用。
而在社会科学领域中，相较于已经被广泛研究的监督学习和无监督学习，强化学习的运用仍处于起步阶段。

强化学习在投资组合优化问题上有很强的运用性。
强化学习善于办理投资组合优化问题包含的诸多随机决策。
通过调度赏罚机制和绩效函数，强化学习可以精准办理投资者的不同需求，如对高夏普比率进行褒奖并对过度借贷策略进行惩罚。
与其他专注于提高收益的算法比较，强化学习算法具有更高的灵巧性和针对性。
在Cong等 2019年和2020年连续推出的论文[1]中,作者们通过一系列前辈的人工智能技能对强化深度学习的金融运用进行发掘，发明了AlphaPortfolio人工智能和序列学习等投资模型。

一方面，基于跨资产神经网络及把稳力机制提高了参数准确度。
AlphaPortfolio的模型利用了600余个资产信息作为输入参数，个中包括股指回报率、资产收益率、买卖价差等。
在此根本上，作者们将多个不同资产输着迷经网络（图1）。
模型将根据策略机制和输入参数为所有干系资产打分。
所天生的投资组合将重仓高分资产，同时空仓低分资产。
通过模型，AlphaPortfolio天生的投资组合确保了较高的收益和较低的颠簸，并在各种经济条件限定下坚持高于2.0的夏普比率。

个中，把稳力机制（Attention Mechanism）就被作者们加以改良为扩资产把稳力网络（Cross-asset Attention Network）。
在翻译长句中的某一单词时，一样平常的模型会授予长句中所有单词相同的权重，然而，目标单词本身理应获取较句中其他词语更高的权重。
在投资组合模型的运用中，把稳力机制使我们对资产的评分更专注于单一资产本身的参数，减轻了组合中其他资产对评分公允性的影响。

图1神经网络模型

另一方面，通过多项式敏感度可以剖析解读模型的经济学意义。
由于机器学习与神经网络模型常日具有较高维度和非线性等特点，利用者每每在理解模型背后的经济意义时遭遇困难。
而多项式敏感度剖析可以将高维度的非线性模型投影到多项式模型上，并逐一剖析资产参数对模型评分的贡献度（图2）。
结果显示，库存、税前利润率、现金资产率等参数对评分具有较显著的浸染。
这些结果与其他投资研究的成果同等，并对模型的参数选择供应了主要参考。

图2 参数贡献度蜕变（1990—1998年）

文本因子“对话”人工智能

与数值数据不同，文本数据由自然措辞组成，因此也具有比数值数据更优胜的可阐明性。
通过自然措辞处理算法，我们可以更好地理解人工智能机器学习模型，找到其潜在的主题及逻辑（图3）。
Cong等 (2018)[2]所开拓的文本因子体系便供应了一种有效的利用文本空间解读大数据人工智能运用的路子，也是AlphaPortfolio所采取的一种经济解读。

从上市公司的季报或年报文档以及财报会议记录出发，自然措辞处理算法先将原始文本转换成数值向量，再将数值向量进行聚类，终极，在各个聚类上建立文本因子。
这种以数据驱动的剖析模式可以拆分繁芜的措辞构造，并且确保利用者有能力阐明人工智能模型产生的结果，并将模型运用于不同行业、不同背景的上市公司。
在上文所述的模型中，在季报与年报中谈及发卖、利润和企业发展方案的公司每每收成高分，而强调房地产及经营失落误的公司则常常收成低分。
自然措辞处理技能可以显著提高利用者对付模型结果的理解。

图3

除理解读资管模型，文本因子在社会科学中也有广泛的运用。
文本因子结合自然措辞处理中前沿的人工智能工具，其对应的剖析框架在社会科学中也有广泛运用。
例如，之前提及的Cong等(2018)的文章中先容如何用***天生文本因子来预测如GDP增长和失落业率等宏不雅观指标，或是度量创新；又如Cong等(2020)[3]中结合了专业知识和数据驱动的两种方法，用文本因子天生高维度的公司管理和创新的指标, 不仅填补了传统度量单一缺准和无韶光序列变革等问题，同时也创造了新的管理维度，并可以运用到公司股东投票结果等的预测中。
Cong等(2020)[4]中更详细描述人工智能在社会科学中充满拓展空间及因子构造如何可以更好开拓非构造化数据。

注释：

[1] Cong, Tang, Wang, and Zhang, AlphaPortfolio for Investment and Economically Interpretable AI，2019. Cong, Tang, Wang, and Zhang, Deep Sequence Modeling: Development and Applications in Asset Pricing，2020.

[2] Cong, Liang, and Xiao, Textual Factors: A Scalable, Interpretable, and Data-driven Approach to Analyzing Unstructured Information，2018.

[3] Cong, Foroughi, and Malenko, A Textual-Factor Approach to Measuring Corporate Governance, 2020.

[4] Cong, Liang, Yang, and Zhang，Analyzing Textual Information at Scale, 2020.

本文经原作者授权，如需转载请联系授权并注明出处。
编辑：张静。

-END-