互聯網地名地址采集系統
系統概述
大數據時代的到來,使得從海量的互聯網信息資源挖掘并利用豐富地名地址信息資源成為可能。系統以互聯網地名地址數據為對象,挖掘文本為主的非結構化資源以及網絡地圖為主的結構化地名數據庫資源,借鑒自然語言處理、信息抽取、機器學習等領域的理論與方法,建立一種全新的地名地址數據加工、處理、更新與服務手段。
系統內容
系統互聯網地名地址為數據源,利用網絡爬蟲手段全面收集地名數據、地址數據;借鑒自然語言處理、信息抽取、機器學習方法開展地名地址數據進行解析、編碼、清洗、匹配等工作,構建結構合理編碼規范的地名地址數據庫;實現地名地址的自動采集、智能解析、智能分類、智能清洗、智能匹配。