阿里达摩院联合高德发布多模态地理文本预训练模型MGeo 环球快播报

(资料图片仅供参考)

2月21日，达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo，其可充分理解地图上的每一个元素，并精准完成地图搜索、地理位置分析等任务。MGeo是阿里通义模型系列旗下的新模型，目前已在魔搭社区开放（https://modelscope.cn/models/damo/mgeo_backbone_chinese_base/summary）。

地理文本信息处理是导航软件、物流以及零售等行业的基础。然而，目前传统地理文本AI算法对于地理信息的理解仍局限在经纬度以及经纬度的远近上，无法像人类一样理解地图上的元素，该方法难以精准表示景区、园区、商业街等大型地理实体的具体形状，以及不同地图元素之间复杂的临近、包含等关系。

针对上述问题，达摩院联合高德提出地理文本多模态模型，使用对抗MLM预训练、句子对预训练及多模态预训练三大技术，并用多任务预训练将这三种预训练任务进行动态组合，最终训练得到适合于多类地理文本任务的预训练底座MGeo。该模型拥有丰富的地理知识，能像人类一样跨模态理解地图与地理文本的信息，相关研究成果已被EMNLP、AAAI等国际顶级会议收录。

MGeo像人类一样具备跨模态理解能力，可识别地图元素之间的位置关系

据悉，高德基于MGeo研发了全新的模型，不仅显著提高泛化语义的表示能力，还可准确识别不同地图元素之间的位置关系，有效提升用户的搜索体验。例如，当用户在杭州输入“星光荟对面中国美术”时，MGeo能根据位置关系准确定位到中国美术学院象山校区，而传统BERT模型则给出了错误定位结果；此外，在用户书写有误的情况下，该模型也能匹配正确的结果。该能力已逐步在高德灰度上线。

在四平市搜索“佣兵小区”，高德可准确定位“拥军社区”

达摩院语言技术实验室负责人黄非表示：“地理信息与AI的融合已是业界公认的趋势，但传统AI比如文本处理在地理信息应用场景中有一定局限性，我们需要让AI学习人类对于空间信息的理解范式，例如，通过地图中的地理实体以及他们之间的关系来判定地理文本中各个元素的归属以及指向。”

作为最早投入预训练语言模型研究的团队之一，达摩院研发了阿里通义AliceMind，该体系涵盖预训练模型、多语言预训练模型、超大中文预训练模型等，具备阅读理解、机器翻译、对话问答、文档处理等多种能力，该模型体系已斩获36项国际赛事冠军。