詞彙萃取
本技術以機器學習為基底,大量學習文章用語樣式(pattern),自動萃取文本中的人物、時間、團體、品牌、關鍵字詞彙,是大數據分析不可或缺的要角。
本API萃取文本中的重要資訊,包含人名(person)、地點(location)、品牌(brand)、關鍵字(keyword)、時間資料(datetime),可一次上傳一篇或多篇文本,API將回傳每篇文本之詞彙萃取結果,如果一次串接多篇文本,運算完成後,另將回傳本次萃取詞彙統計結果(Summarize)。
本API運算核心以新聞、社群資料為基底,進行機器學習,取用API時,請透過參數指定分析資料屬性,以獲取更準確的詞彙萃取結果。特別提醒,時間正規化及地點正規化資料演算結果,則尚未對外開放。
Name | Type | Description |
id | string | 唯一識別碼 |
text | string | 文章內容 |
$ curl -X POST \
-H "Content-Type: application/json" \
-H "Accept: application/json" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-d '[
{
"id": "9527",
"text": "安倍晉三在國會表示,希望日本央行繼續實施大膽的寬鬆貨幣政策"
},
{
"id": "9528",
"text": "黑白劇照裡豔紅的燭火,沉默的信仰裡,有翻騰的生命。導演黃信堯前些年以《大佛普拉斯》的前身《大佛》,入圍了金馬獎最佳短片。"
}
]
' \
"https://thoughts.blueplanet.com.tw/api/v1/extraction"
[
{
"brand": {
},
"group": {
"日本央行": 1
},
"keyword": {
"寬鬆貨幣政策": 1
},
"id": "9527",
"person": {
"安倍晉三": 1
},
"location": {
}
},
{
"brand": {
},
"group": {
},
"keyword": {
"劇照": 1,
"沉默": 1,
"大佛": 1,
"入圍": 1,
"金馬獎": 1,
"大佛普拉斯": 1
},
"id": "9528",
"person": {
"黃信堯": 1
},
"location": {
}
}
]
#encoding=utf-8
import requests
import json
headers = {
'Authorization': 'Bearer YOUR_API_TOKEN',
'Content-Type': 'application/json'
}
data = json.dumps([
{
"id": "9527",
"text": "安倍晉三在國會表示,希望日本央行繼續實施大膽的寬鬆貨幣政策"
},
{
"id": "9528",
"text": "黑白劇照裡豔紅的燭火,沉默的信仰裡,有翻騰的生命。導演黃信堯前些年以《大佛普拉斯》的前身《大佛》,入圍了金馬獎最佳短片。"
}
]
)
result = requests.post("https://thoughts.blueplanet.com.tw/api/v1/extraction", headers=headers, data=data)
$url = 'https://thoughts.blueplanet.com.tw/api/v1/extraction';
$ch = curl_init($url);
$headers = array(
'Authorization: Bearer YOUR_API_TOKEN',
'Content-Type: application/json'
);
$data = '[
{
"id": "9527",
"text": "安倍晉三在國會表示,希望日本央行繼續實施大膽的寬鬆貨幣政策"
},
{
"id": "9528",
"text": "黑白劇照裡豔紅的燭火,沉默的信仰裡,有翻騰的生命。導演黃信堯前些年以《大佛普拉斯》的前身《大佛》,入圍了金馬獎最佳短片。"
}
]
';
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
$result = curl_exec($ch);