喜欢港股投资的朋友将在未来一年里通过理杏仁看到更高质量的港股财报数据,这得益于我们这几年来潜心研究的PDF智能解析技术以及辅助人工数据录入的数据平台软件。虽然整体上还完全完成,但已经在实际应用中配合数据清洗软件有了更好的运用。
作为一位工程师,此刻我有种抑制不住的冲动,想提前跟我们的用户们大概分享一下我们的成果。感谢理杏仁的各位同事日日夜夜的努力,我们一起的工作使得这项工程变为可能。
港股的财报往往是这个样子的,比如腾讯控股的年Q3季度报告。
这是PDF里透露的资产负债表,他没有线,因而没法从底层解析出格式良好的表格,所以我们首先需要通过算法模拟人脑补线的模式得到格式良好的数据页面。比如下面的样子:
结果很好对吧?这是最关键的一步。然后我们要提取其中的关键词,比如
时间信息
货币信息
以公允價值計量且其變動計入損益的金融資產(注意跨行了,因为计算机还无法识别这是否应该是一行,当然我们有办法进一步优化)
流动资产、非流动资产、流动负债、非流动负债(注意他们并没有左侧的信息提示,而是在各个子项的上面)
应付票据、租赁负责。(我们如何判断他们分别是流动还是非流动的呢?)
在解决以上两步关键问题后,我们就可以得到一个标准化的数据。听着是不是很简单?实际上,除了技术难度外,我们还有大量的东西要处理,比如
如何识别这个table是资产负债表呢?是合并报表还是母公司报表?
港股财报极为不规范,一个按公允价值计量且别动计入当期损益的写法有N种,如何整理这个词典?
有些公司合并披露应收账款及应收票据,有些公司分开披露,有些公司披露未应收账款及其他应收款,有些公司披露应收贷款及应收账款。
table的种类在我们的记录里有上千种,如何智能识别每个table的格式?
一个table可能被拆成几页,每页table的数据格式还不一样,如何将其合并?
……
以上问题都让我们团队花费了大量时间和精力,让我们深刻体会到了概率思想以及计算机学习对我们工作的促进。
有心的朋友可能能看到目前港股的财报数据在理杏仁上是展示成这个样子的:
怎么样?这个提取的数据结果之不错吧?当然机器再厉害也不能解决所有问题,还剩下大量问题需要人工处理,这就有赖于我们的数据中心平台软件的便利了。
预览时标签不可点收录于话题#个上一篇下一篇