算法交易

機器可讀新聞的來源

  • November 21, 2021

我正在開始一個項目,該項目涉及將外匯時間序列與新聞發布相關聯並進行預測。我知道 Thomson Reuter 的機器可讀新聞和 Dow Jone 的 Newswire 服務等來源。但是,它們都需要昂貴的訂閱。有誰知道我可以用來開發概念證明的任何類似但免費的等價物?

我認為新聞發布不一定是嚴格實時的,有些延遲也可以,但時間戳是必不可少的。


我認為不應該將我的問題僅限於經過預處理的機器可讀新聞。我更感興趣的是 Ransquawk 的實時頭條新聞服務,它提供基於文本的新聞頭條更新。文本數據不是“機器可讀”的,但這很好,因為我可以應用一些簡單的 NLP 技術來提取資訊。主要問題是如何利用這些實時提要,因為它們中的大多數都不提供 API。而且由於我正在做的更多的是概念證明,我認為存檔時間戳的新聞文章也可以做到。

為您有興趣從中收集新聞的任何網站實施網路爬蟲相對簡單——請參閱Beautiful Soup for Python。這將允許您以一種比依賴單一服務更強大的方式收集和分析來自多個來源的新聞數據。例如,您可以篩選某個網站以獲取其報導的新聞標題,然後使用各種統計技術對新聞進行分群和分析。

我不確定這是否符合某些網站的使用條款,因此不予置評。

引用自:https://quant.stackexchange.com/questions/4410