続・Webの新聞をスクレイピングのターゲットに
前回の記事では取得したhtmlを自分で強引に加工してしまっていたのですが。。。
今回は、nekoHTMLを使用してかなりすっきり書くことができました。
結果
0: 三菱重工、客船に空気潤滑システム−泡の力で燃費向上 1: 軸受各社、EV技術競いインホイールモーター開発加速 2: 新東工業、鋳造工場の節電指南−設備の改修を提案 3: NTTPC、社内サーバ3000台節電−CPUの能力制御 4: 日産、情報システム投資再始動−新興国拡大策と歩調 5: NECとGSユアサ、リチウムイオン電池で協業 6: 熊谷組、CO2減へ工事現場用車両に省燃費ナビ導入 7: 日本環境調査研、除染水の凝集沈殿剤を福島などに投入 8: ファミマ、牧場支援へ福島牛を一頭買いを開始 9: 金相場見通し、通年平均1690ドルで推移−上昇続く 10: 京大、CO2原料に「安息香酸」の直接合成に成功 11: 新潟県、EVへの改良に補助金−需要喚起を期待 12: 近畿大、セシウム99%取り除く漆喰材料を開発 13: 酸化ストレス抑制たんぱく質、がん転移を促進 14: 次世代環境地域構想、会津で始動−再生エネ“地産地消”へ
参考記事(ほぼそのまま)
Groovyでスクレイピングしてみる(NekoHTML編) - No Programming, No Life
Groovy/NekoHTML でパース(読み込み)時にエンコーディング指定 - 再発明日記