LinkedIn的AI自动生成照片文本描述
当今的计算机视觉技术是否能够为照片生成文本描述?这是LinkedIn的科学家们在过去几年一直研究的问题。他们在最近的一篇文章中详细介绍了解决方案。他们最希望实现的是为上传到LinkedIn的图片添加替代文本描述的工具,该工具使用微软的识别服务平台和LinkedIn衍生的独特数据集来实现。
研发人员提出:“目前,LinkedIn允许会员在通过Web界面上传图片时手动添加文字描述,但并非所有会员都会选择这一功能,我们正在探索如何能提高LinkedIn的访问量”
KlipC调查发现,其实在自动字幕制作的领域存在着无数挑战,也许最明显的挑战是字母的主观性。它要求具有广泛的专业知识和更准确的能识别所描述物体的信息,有助于更准确地识别所描述活动的时间信息。
为了解决这些问题,该团队利用识别服务公司的Analyze api开发了一个功能,该功能可以为按置信息度排序的照片生成可供选择的文本描述。随后,他们招募了评估人员,通过他们自己写的标签来评估他们的表现。
虽然微软的API功能成功地识别了人群、报纸以及地铁等场所,但它最初在Linkedin媒体上遇到的困难是:它无法识别Linkedin中幻灯片、投影仪、展览、会议、研讨会、海报、证书、图表等具有专业背景的图像。开发团队通过评估LinkedIn上现有的备选文本描述的正确性来解决这一问题。
在分离了这些模式之后,该团队开发了一个元分类器,帮助过滤掉“可能损害LinkedIn成员体验”的文本描述,除了一个图像描述校正模块,它可以识别和修复包含“屏幕截图”这样描述不正确的单词。他们说,这种自动生成文本模式为创建元分类器创建了基础,这些模型采用了标记分类法,以提高其描述的准确性。
LinkedIn在订阅源中的添加了一个问题:订阅源是否包括所有LinkedIn成员?例如,有视力障碍的会员还能享受到丰富的媒体信息吗?在宽带有限的区域中,一个可以阻止图像完全加载的成员是否仍然具有完整的体验?KlipC在调查研究中发现,LinkedIn的人工智能团队针对其平台特定内容的图像来描述模型,以帮助提高图像描述的准确性。”
当然,LinkedIn对AI并不陌生。它的人工智能搜索引擎利用人们在个人资料和搜索结果种发布的各种信息来预测最适合的工作和求职者。实际上,LinkedIn在2016年将其订阅内容从时间倒序改为更加个性化的内容,对用户的喜好和分享做出了预测。
KlipC认为未来将会更加精彩,更多科技巨头涌入,更多技术链接,更多传统行业与新兴行业结合。KlipC也设想,如果未来又一个大型针对性数据库统一输出和输入保存,例如家装摄像头,以拍摄成一个数据库,只需进入实名查询自己想要的数据,而且进入数据库那一刻永久保存,不用担心会被窃取,还有人为你看护和维护。