2021語言與智能技術競賽報名進入倒計時
為推動語言與智能技術發展及應用落地,2021語言與智能技術競賽在今年3月正式開幕,目前已有全球4000多人次報名參賽。現在,比賽報名已進入倒計時階段,歡迎學術界和產業界的研究者和開發者參加本次競賽。
數千支隊伍參與激烈角逐
2021語言與智能技術競賽由中國計算機學會(CCF)和中國中文信息學會(CIPS)聯合主辦,中國計算機學會自然語言處理專委會、中國中文信息學會評測工作委員會和百度公司共同承辦。2018年至今該競賽已經成功舉辦三屆。今年的賽題內容覆蓋了語言理解、人機對話和知識抽取等多個自然語言處理的重要研究方向,對于智能搜索、智能推薦、智能交互等人工智能應用具有重要意義。
本屆競賽將在第六屆“語言與智能高峰論壇”上舉辦技術交流和頒獎儀式,獲勝團隊將分享總計30萬元人民幣的獎金。屆時,論壇還將邀請國內外學術界、產業界的知名專家學者,分享語言與智能及相關領域的發展趨勢和創新成果。
截至目前,競賽已有超過4000人次報名參加。其中,企業選手覆蓋了互聯網、AI、通訊、金融、能源、航空航天等多個領域,其中包括騰訊、華為、阿里巴巴、字節跳動、國家電網、中國移動等知名企業;來自國內外知名高校選手占據總報名人次的60%,覆蓋了大部分的985、211高校,包括清華大學、北京大學、復旦大學、中國人民大學等,還有慕尼黑工業大學、南洋理工大學、早稻田大學、愛丁堡大學等國際高校選手報名參加。
賽題挑戰性顯著提升 三大任務聯手“千言”推動技術進步
本屆競賽設立了來源于真實應用需求的三大任務:機器閱讀理解、多技能對話、多形態信息抽取。本屆競賽所采用的數據集均來自于中文開源數據集項目“千言”。與往屆競賽僅關注模型在單一數據上的效果不同,本屆競賽基于“千言”對每項任務設置了更加豐富的數據集合和評測維度,期望能夠從準確性、魯棒性和泛化性等多個角度對技術效果進行綜合評價,從而推動技術更好地適應多領域、多場景的產業應用。
機器閱讀理解是指讓機器閱讀文本然后回答和閱讀內容相關的問題。當前的機器閱讀理解數據集大多都只采用單一的指標來評測模型的好壞,缺乏對模型語言理解能力的細粒度、多維度評測,導致模型的具體缺陷很難被發現和改進。為了解決這個問題,本次賽題建立了細粒度、多維度的評測數據集,從詞匯理解、短語理解、語義角色理解、邏輯推理等多個維度檢測模型的不足之處,從而推動閱讀理解評測進入“精細化時代”。該數據集中的樣本均來自于實際的應用場景,難度大、考察點豐富,覆蓋了真實應用中諸多難以解決的問題。
多技能對話則指讓機器融合各個不同的對話技能,同時考察模型在跨技能場景下的通用性。真實世界的人機交互會同時涉及到多種對話技能,如何自然地融合多技能對話是一個重要的挑戰。因此本次競賽聚焦多技能對話這一任務,在往年數據集基礎上豐富了技能種類,覆蓋了知識對話、推薦對話、畫像聊天、閑聊等多種技能。該任務下的對話數據覆蓋的對話技能多樣、領域多樣,對話交互場景均來源于真實的實際應用。
多形態信息抽取指讓機器從自然語言文本中抽取實體、關系、事件等多形態知識,旨在使機器具備從海量非結構化文本信息中自動抽取結構化知識的能力。目前大多數相關研究工作僅關注單一類型信息的抽取效果,缺乏在不同類型信息抽取任務上的統一評價。因此本次競賽設立了多形態抽取信息任務,希望從不同維度對結構化知識抽取效果進行綜合評價。競賽發布了業界最大規模的中文多形態信息抽取數據集,囊括實體、關系、事件等不同形態的結構化知識抽取,同時涵蓋句子和篇章兩種粒度的自然語言文本。此次競賽希望通過開放的大規模中文數據集,助力信息抽取技術的進一步發展。
此外,百度飛槳作為中國首個自主研發、功能完備、開源開放的產業級深度學習平臺,將為本次競賽的參賽者提供技術支持。本次競賽三大任務均提供了基于飛槳的基線,助力選手快速上手;基于百度飛槳的人工智能學習與實訓社區 AI Studio還提供了在線編程環境、免費 GPU算力及開源算法數據支持。
長久以來,百度一直積極布局“人工智能+X”復合型人才培養,以百度飛槳(PaddlePaddle)為核心,圍繞學習、就業、認證、實踐、比賽等環節,將高校科研人才與企業應用人才培養緊密結合。本次競賽,百度將全力創造最佳競賽條件,進一步培養AI人才,推動技術應用落地與產業智能化發展。
距離報名截止還有最后一周,競賽正在火熱進行中,期待更多選手的加入,一起挑戰前沿任務,推動語言與智能技術的發展。(陳蕊)
責任編輯:王健