Hallo Guys 😂
Kali ini saya akan membagikan tutorial parsing data atau / scraping dengan python
di android
Sebelum itu bantu author Jejaka Tutorial Dengan Click iklan dan biarkan beberapa detik ya gan ya , agar author tambah semangat untuk memperbarui artikel di blog ini setiap hari
Kita Akan Mencoba parsing Dari Blog Page Saya ini Contoh Page
siap kan dulu peralatanya
- Termux :
pkg install python
pip install requests
pip install bs4
ok langsung saja kita eksekusi program nya pertama buka dulu quick edit atau nano editor
Tampilan Untuk Quick Edit
Tampilan Untuk Nano Editor (tools bawaan termux)
Selanjutnya import dulu module requests dan bs4
import requests
from bs4 import BeautifulSoup
url = 'https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1'
with requests.Session() as c:
respon = c.get(url)
soup = BeautifulSoup(respon.content, "html.parser")
print(soup.prettify())
note : alamat url bisa agan ganti yang lainyasetelah agan membuatnya seperti di atas silahkan coba jalankan dan hasilnya akan seperti di bawah ini
<a href="https://jejakatutorial-termux.blogspot.com/" rel="nofollow">
</a>
</span>
<span>
belajar bs4
</span>
</div>
<div class="blog-posts hfeed">
<!--Can't find substitution for tag [defaultAdStart]-->
<div class="date-outer">
<div class="date-posts">
<div class="post-outer">
<article class="post hentry">
<h1 class="post-title entry-title">
belajar bs4
</h1>
<div class="post-info">
<span class="item-control blog-admin pid-2102565653">
<a href="https://www.blogger.com/page-edit.g?blogID=2743239978184035798&pageID=5128740299106525223&from=pencil" title="Edit Page">
<img alt="" class="icon-action" height="18" src="https://img2.blogblog.com/img/icon18_edit_allbkg.gif" width="18"/>
</a>
</span>
</div>
<div class="post-header">
<div class="post-header-line-1">
</div>
</div>
<div class="post-body entry-content" id="post-body-5128740299106525223">
ini adalah halaman pembelajaran scraping data dengan bs4
<br/>
<br/>
kunjungi terus blog ini, karena disini banyak tutorial tutorial menarik untuk termux
<br/>
<br/>
kunjungi juga channel youtube Jejaka Tutorial di sana tempat saya mengupload video video tutorial untuk termux
<div class="clear">
</div>
</div>
ini hanyalah potonganya sajaok selanjutnya
kita akan mencoba mencari beberapa bagian dari blog di atas seperti
• title
• deskripsi blog
• link dll
untuk lebih jelasnya silahkan lihat program di bawah ini
import requests
from bs4 import BeautifulSoup
url = 'https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1'
with requests.Session() as c:
respon = c.get(url)
soup = BeautifulSoup(respon.content, "html.parser")
print("1", soup.title)
print("2", soup.title.name)
print("3", soup.title.parent.name)
print("4", soup.p)
print("5", soup.p['class'])
print("6", soup.a)
silahkan save dan jalankan maka hasilnya akan seperti di bawah ini1 <title>belajar bs4 - Jejaka Tutorial</title>
2 title
3 head
4 <p class="description"><span>Blog ini tentang tutorial seputar termux, dunia hacking, pemrograman, dll </span></p>
5 ['description']
6 <a href="https://jejakatutorial-termux.blogspot.com/">Home</a>
dengan module bs4 ini kita bisa mencari link link yang tersimpan di dalam blog
caranya :
import requests
from bs4 import BeautifulSoup
url = 'https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1'
with requests.Session() as c:
respon = c.get(url)
soup = BeautifulSoup(respon.content, "html.parser")
for link in soup.find_all('a'):
print (link.get('href'))
ketika agan menjalankan nya maka outputnya akan mengeluar kan banyak link yang terkandung dalam blog ini seperti di bawah inihttps://jejakatutorial-termux.blogspot.com/
https://jejakatutorial-termux.blogspot.com/p/about.html
https://jejakatutorial-termux.blogspot.com/p/name-email-address-important-content.html
https://jejakatutorial-termux.blogspot.com/p/div-idbptocloading-toc.html
https://m.youtube.com/channel/UCn5d8Xbp0yt-SWTmxwtayvQ
https://jejakatutorial-termux.blogspot.com/
https://jejakatutorial-termux.blogspot.com/p/termux.html
https://jejakatutorial-termux.blogspot.com/p/mining.html
https://jejakatutorial-termux.blogspot.com/p/nuyul.html https://jejakatutorial-termux.blogspot.com/p/hack.html?m=1
https://jejakatutorial-termux.blogspot.com/
https://www.blogger.com/page-edit.g?blogID=2743239978184035798&pageID=5128740299106525223&from=pencil https://www.blogger.com/comment-iframe.g?blogID=2743239978184035798&pageID=5128740299106525223
https://jejakatutorial-termux.blogspot.com/feeds/posts/default
http://facebook.com/Jejaka-Tutorial-2230728320541897
http://plus.google.com/106273771548209106947
https://youtube.com/channel/UCn5d8Xbp0yt-SWTmxwtayvQ http://instagram.com/lutfi_ainun_32
selanjutnya kita akan mencari blog post atau postingan saya dari url di blog ini
Sebelum itu Agan Harus Tau Id dari bagian yang akan agan ambil
untuk mengetahui nya caranya
pertama silahkan masukk ke browser anda
pastekan di url browser view-source:https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1
lalu cari id yang akan agan ambil, sebagai contoh agan bisa lihat gambar di bawah ini
ok selanjutnya silahkan simak potongan program di bawah ini
import requests
from bs4 import BeautifulSoup
url = 'https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1'
with requests.Session() as c:
respon = c.get(url)
soup = BeautifulSoup(respon.content, "html.parser")
print(soup.find(id='post-body-5128740299106525223').text)
silahkan save dan jalankan
outputnya kurang lebih seperti di bawah ini
ini adalah halaman pembelajaran scraping data dengan bs4
kunjungi terus blog ini, karena disini banyak tutorial tutorial menarik untuk termux
kunjungi juga channel youtube Jejaka Tutorial di sana tempat saya mengupload video video tutorial untuk termux
Hasil nya sama dengan postingan saya yang ada di blog saya
sumber :
sekian dari saya terima kasih
No comments:
Post a Comment