Puppeteer がそれなりに動いたようなんで、HTMl の本文っぽいとこを抽出しようとトライ。できればクラス名に頼らずで。
リンクの文字数と、りんくじゃない文字数をゴニョゴニョすると、それなりにとれるてる気がする。

Follow

最後にゴミ掃除するのにクラス名だカスタムデータ属性だ ARIA 属性だは使うかもだけど。

· · Web · 0 · 0 · 0
Sign in to participate in the conversation
Mastodon

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!