詞彙萃取
本技術以機器學習為基底,大量學習文章用語樣式(pattern),自動萃取文本中的人物、時間、團體、品牌、關鍵字詞彙,是大數據分析不可或缺的要角。

詞彙萃取

介紹

本API萃取文本中的重要資訊,包含人名(person)、地點(location)、品牌(brand)、關鍵字(keyword)、時間資料(datetime),可一次上傳一篇或多篇文本,API將回傳每篇文本之詞彙萃取結果,如果一次串接多篇文本,運算完成後,另將回傳本次萃取詞彙統計結果(Summarize)。

本API運算核心以新聞、社群資料為基底,進行機器學習,取用API時,請透過參數指定分析資料屬性,以獲取更準確的詞彙萃取結果。特別提醒,時間正規化及地點正規化資料演算結果,則尚未對外開放。

URL

https://thoughts.blueplanet.com.tw/api/v1/extraction

HTTP Method

POST

HTTP Header

Content-Type
application/json
Accept
application/json
Bearer
YOUR_API_TOKEN(需要替換成您自己的 Token)

參數表

Name Type Description
id string 唯一識別碼
text string 文章內容

CURL範例(輸入)


$ curl -X POST \ 
-H "Content-Type: application/json" \ 
-H "Accept: application/json" \ 
-H "Authorization: Bearer YOUR_API_TOKEN" \ 
-d '[
	{
		"text": "安倍晉三在國會表示,希望日本央行繼續實施大膽的寬鬆貨幣政策",
		"id": "9527"
	},
	{
		"text": "黑白劇照裡豔紅的燭火,沉默的信仰裡,有翻騰的生命。導演黃信堯前些年以《大佛普拉斯》的前身《大佛》,入圍了金馬獎最佳短片。",
		"id": "9528"
	}
]
' \ 
"https://thoughts.blueplanet.com.tw/api/v1/extraction"
                

CURL範例(輸出)


[
	{
		"id": "9527",
		"location": {
		},
		"group": {
			"日本央行": 1
		},
		"keyword": {
			"寬鬆貨幣政策": 1
		},
		"brand": {
		},
		"person": {
			"安倍晉三": 1
		}
	},
	{
		"id": "9528",
		"location": {
		},
		"group": {
		},
		"keyword": {
			"大佛普拉斯": 1,
			"金馬獎": 1,
			"大佛": 1,
			"劇照": 1,
			"沉默": 1,
			"入圍": 1
		},
		"brand": {
		},
		"person": {
			"黃信堯": 1
		}
	}
]

                

Python範例


#encoding=utf-8

import requests
import json

headers = {
    'Authorization': 'Bearer YOUR_API_TOKEN', 
    'Content-Type': 'application/json'
}

data = json.dumps([
	{
		"text": "安倍晉三在國會表示,希望日本央行繼續實施大膽的寬鬆貨幣政策",
		"id": "9527"
	},
	{
		"text": "黑白劇照裡豔紅的燭火,沉默的信仰裡,有翻騰的生命。導演黃信堯前些年以《大佛普拉斯》的前身《大佛》,入圍了金馬獎最佳短片。",
		"id": "9528"
	}
]
)

result = requests.post("https://thoughts.blueplanet.com.tw/api/v1/extraction", headers=headers, data=data)
            

PHP範例


$url = 'https://thoughts.blueplanet.com.tw/api/v1/extraction';

$ch = curl_init($url);

$headers = array(
    'Authorization: Bearer YOUR_API_TOKEN', 
    'Content-Type: application/json'
);

$data = '[
	{
		"text": "安倍晉三在國會表示,希望日本央行繼續實施大膽的寬鬆貨幣政策",
		"id": "9527"
	},
	{
		"text": "黑白劇照裡豔紅的燭火,沉默的信仰裡,有翻騰的生命。導演黃信堯前些年以《大佛普拉斯》的前身《大佛》,入圍了金馬獎最佳短片。",
		"id": "9528"
	}
]
';

curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers); 

$result = curl_exec($ch);