**hidehish** @hidehish@mstdn.dgm.pw · Jul 31, 2022, 13:42

**hidehish** @hidehish@mstdn.dgm.pw · Jul 31, 2022, 13:42

hidehish @hidehish@mstdn.dgm.pw

hidehish @hidehish@mstdn.dgm.pw

3.87K Posts

396 Following

155 Followers

keybase: https://keybase.io/hidehish

twitter: https://twitter.com/hidehish

Joined Feb 2019

396 Following 155 Followers

Posts Posts and replies Media

Show newer

Jul 31, 2022, 13:42

hidehish @hidehish@mstdn.dgm.pw

HTML チェック中に見つけた。
ぱっと見、PC-Talker と NVDA と iOS の VoiceOver ってとこか。

日本視覚障害者ICTネットワーク第1回支援技術利用状況調査報告書
https://jbict.net/survey/at-survey-01

**hidehish** @hidehish@mstdn.dgm.pw · Jul 30, 2022, 15:34

**hidehish** @hidehish@mstdn.dgm.pw · Jul 30, 2022, 15:34

Jul 30, 2022, 15:34

hidehish @hidehish@mstdn.dgm.pw

今日は外気温がぜんぜん下がらんなー

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 14:15

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 14:15

Jul 28, 2022, 14:15

hidehish @hidehish@mstdn.dgm.pw

本文って主観だなー。

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 14:11

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 14:11

Jul 28, 2022, 14:11

hidehish @hidehish@mstdn.dgm.pw

んで、目標はこっから自分用検索エンジンなりにいきたいなー。

Show thread

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 14:06

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 14:06

Jul 28, 2022, 14:06

hidehish @hidehish@mstdn.dgm.pw

自分用だからサイトの偏りはあるけれど、データベースの ID 上では 5500 くらいやってる。数こなすと、OK な HTML とだめな HTML の傾向とか少しみえたりするわね。
.entry-content があったらだいたい本文ぽい。とか。

Show thread

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 14:01

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 14:01

Jul 28, 2022, 14:01

hidehish @hidehish@mstdn.dgm.pw

WEBの本文ぽいところが含まれている要素みつけるやつ、ある程度までいくとひたすらテストコード（？）作る作業になってきた。手持ちの HTML の URL と要素指定をひたすら繰り返すお仕事ですになってる。
でも、これやらないと、今のコードをいじれなくなるのよな。

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 10:17

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 10:17

Jul 28, 2022, 10:17

hidehish @hidehish@mstdn.dgm.pw

サーバ再起動したら一部ネットワークが死んでて、なんでだろと思ったら、nftables の設定を間違って保存してたため、nftables 自体が起動してなかった=ルーティングしてない状態だった。
きっと前回ごにょったときに変なタイミングでセーブしたんだと思う。
気をつけよ。

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 09:43

**hidehish** @hidehish@mstdn.dgm.pw · Jul 28, 2022, 09:43

Jul 28, 2022, 09:43

hidehish @hidehish@mstdn.dgm.pw

いきなりサーバーかたまった。

**hidehish** @hidehish@mstdn.dgm.pw · Jul 22, 2022, 02:16

**hidehish** @hidehish@mstdn.dgm.pw · Jul 22, 2022, 02:16

Jul 22, 2022, 02:16

hidehish @hidehish@mstdn.dgm.pw

Bunny Fonts なんてのがあったのか。知らなかった。ゼロトラッキング＋ノーログ。

via https://text.baldanders.info/remark/2022/06/migrate-to-bunny-fonts-from-google-fonts/

https://gigazine.net/news/20220622-bunny-fonts/

https://fonts.bunny.net/

**hidehish** @hidehish@mstdn.dgm.pw · Jul 21, 2022, 03:15

**hidehish** @hidehish@mstdn.dgm.pw · Jul 21, 2022, 03:15

Jul 21, 2022, 03:15

hidehish @hidehish@mstdn.dgm.pw

今日親指が痛い。なんでかとおもったらもしかして昨日久々にピアノ弾いたからか？サボりすぎたか。
いたい。

**hidehish** @hidehish@mstdn.dgm.pw · Jul 19, 2022, 15:34

**hidehish** @hidehish@mstdn.dgm.pw · Jul 19, 2022, 15:34

Jul 19, 2022, 15:34

hidehish @hidehish@mstdn.dgm.pw

HTML 本文、テキスト長ベースで判別すると span 山盛りなサイトでだめか。

https://www.fastly.com/jp/blog/summary-of-june-8-outage

**hidehish** @hidehish@mstdn.dgm.pw · Jul 18, 2022, 11:37

**hidehish** @hidehish@mstdn.dgm.pw · Jul 18, 2022, 11:37

Jul 18, 2022, 11:37

hidehish @hidehish@mstdn.dgm.pw

HTML の本文抽出って、ステルスゲームを攻略するのに似てる気がしてきた。ちょっと直してはテストして、失敗すると、以前 OK だったやつが NG になったりする。んで、何をやったら両方 OK かを探す感じ。

**hidehish** @hidehish@mstdn.dgm.pw · Jul 18, 2022, 01:30

**hidehish** @hidehish@mstdn.dgm.pw · Jul 18, 2022, 01:30

Jul 18, 2022, 01:30

hidehish @hidehish@mstdn.dgm.pw

deno.land 帰ってきた。

Show thread

**hidehish** @hidehish@mstdn.dgm.pw · Jul 18, 2022, 01:02

**hidehish** @hidehish@mstdn.dgm.pw · Jul 18, 2022, 01:02

Jul 18, 2022, 01:02

hidehish @hidehish@mstdn.dgm.pw

deno.land つながらん。Docker 内の deno で毎回ライブラリダウンロードしてるやつが動かない。persistence volume にしとくべきなのかなー

**hidehish** @hidehish@mstdn.dgm.pw · Jul 17, 2022, 04:01

**hidehish** @hidehish@mstdn.dgm.pw · Jul 17, 2022, 04:01

Jul 17, 2022, 04:01

hidehish @hidehish@mstdn.dgm.pw

HTML の本文抽出というか、本文を含んでいる要素の抽出をやってる。楽しい。

やり方を知らないものを、trial + error でやるの、どんどんコードがぐっちゃぐちゃになって、わたしだめだ〜、ってなるけど。

**hidehish** @hidehish@mstdn.dgm.pw · Jul 13, 2022, 14:42

**hidehish** @hidehish@mstdn.dgm.pw · Jul 13, 2022, 14:42

Jul 13, 2022, 14:42

hidehish @hidehish@mstdn.dgm.pw

Plamo も長いなーすごいなー

https://gihyo.jp/lifestyle/serial/01/ganshiki-soushi-2/0040

**hidehish** @hidehish@mstdn.dgm.pw · Jul 13, 2022, 12:18

**hidehish** @hidehish@mstdn.dgm.pw · Jul 13, 2022, 12:18

Jul 13, 2022, 12:18

hidehish @hidehish@mstdn.dgm.pw

HTML の本文抽出試してる。NHK のサイトの HTML がやりづらい。

**hidehish** @hidehish@mstdn.dgm.pw · Jul 08, 2022, 12:34

**hidehish** @hidehish@mstdn.dgm.pw · Jul 08, 2022, 12:34

Jul 08, 2022, 12:34

hidehish @hidehish@mstdn.dgm.pw

最後にゴミ掃除するのにクラス名だカスタムデータ属性だ ARIA 属性だは使うかもだけど。

Show thread

**hidehish** @hidehish@mstdn.dgm.pw · Jul 08, 2022, 12:32

**hidehish** @hidehish@mstdn.dgm.pw · Jul 08, 2022, 12:32

Jul 08, 2022, 12:32

hidehish @hidehish@mstdn.dgm.pw

Puppeteer がそれなりに動いたようなんで、HTMl の本文っぽいとこを抽出しようとトライ。できればクラス名に頼らずで。
リンクの文字数と、りんくじゃない文字数をゴニョゴニョすると、それなりにとれるてる気がする。

**hidehish** @hidehish@mstdn.dgm.pw · Jul 05, 2022, 14:02

**hidehish** @hidehish@mstdn.dgm.pw · Jul 05, 2022, 14:02

Jul 05, 2022, 14:02

hidehish @hidehish@mstdn.dgm.pw

以前はできなかったけど、今はわかる or できるって思えるときは書いてて楽しいー

Show thread

Show older

keybase: https://keybase.io/hidehish

twitter: https://twitter.com/hidehish

Joined Feb 2019

hidehish @hidehish@mstdn.dgm.pw

Trending now

Resources

Developers

What is Mastodon?

mstdn.dgm.pw

More…