Parsing Data Dengan Python

Hallo Guys 😂
Kali ini saya akan membagikan tutorial parsing data atau / scraping dengan python
di android

Sebelum itu bantu author Jejaka Tutorial Dengan Click iklan dan biarkan beberapa detik ya gan ya , agar author tambah semangat untuk memperbarui artikel di blog ini setiap hari

Kita Akan Mencoba parsing Dari Blog Page Saya ini Contoh Page

siap kan dulu peralatanya

Termux :

setelah itu install dulu python dan juga module nya caranya

pkg install python
pip install requests 
pip install bs4

ok langsung saja kita eksekusi program nya pertama buka dulu quick edit atau nano editor

Tampilan Untuk Quick Edit

Tampilan Untuk Nano Editor (tools bawaan termux)

Selanjutnya import dulu module requests dan bs4

import requests
from bs4 import BeautifulSoup

url = 'https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1'
with requests.Session() as c:
    respon = c.get(url)
    soup = BeautifulSoup(respon.content, "html.parser")
    print(soup.prettify())

note : alamat url bisa agan ganti yang lainya

setelah agan membuatnya seperti di atas silahkan coba jalankan dan hasilnya akan seperti di bawah ini

<a href="https://jejakatutorial-termux.blogspot.com/" rel="nofollow">
         </a>
        </span>
        <span>
         belajar bs4
        </span>
       </div>
       <div class="blog-posts hfeed">
        <!--Can't find substitution for tag [defaultAdStart]-->
        <div class="date-outer">
         <div class="date-posts">
          <div class="post-outer">
           <article class="post hentry">
            <h1 class="post-title entry-title">
             belajar bs4
            </h1>
            <div class="post-info">
             <span class="item-control blog-admin pid-2102565653">
              <a href="https://www.blogger.com/page-edit.g?blogID=2743239978184035798&amp;pageID=5128740299106525223&amp;from=pencil" title="Edit Page">
               <img alt="" class="icon-action" height="18" src="https://img2.blogblog.com/img/icon18_edit_allbkg.gif" width="18"/>
              </a>
             </span>
            </div>
            <div class="post-header">
             <div class="post-header-line-1">
             </div>
            </div>
            <div class="post-body entry-content" id="post-body-5128740299106525223">
             ini adalah halaman pembelajaran scraping data dengan bs4
             <br/>
             <br/>
             kunjungi terus blog ini, karena disini banyak tutorial tutorial menarik untuk termux
             <br/>
             <br/>
             kunjungi juga channel youtube Jejaka Tutorial di sana tempat saya mengupload video video tutorial untuk termux
             <div class="clear">
             </div>
            </div>

ini hanyalah potonganya saja

ok selanjutnya
kita akan mencoba mencari beberapa bagian dari blog di atas seperti
• title
• deskripsi blog
• link dll
untuk lebih jelasnya silahkan lihat program di bawah ini

import requests
from bs4 import BeautifulSoup

url = 'https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1'
with requests.Session() as c:
    respon = c.get(url)
    soup = BeautifulSoup(respon.content, "html.parser")
    print("1", soup.title) 
    print("2", soup.title.name)
    print("3", soup.title.parent.name)
    print("4", soup.p)
    print("5", soup.p['class'])
    print("6", soup.a)

silahkan save dan jalankan maka hasilnya akan seperti di bawah ini

1 <title>belajar bs4 - Jejaka Tutorial</title>                     
2 title
3 head                                         
4 <p class="description"><span>Blog ini tentang tutorial seputar termux, dunia hacking, pemrograman, dll </span></p>
5 ['description']
6 <a href="https://jejakatutorial-termux.blogspot.com/">Home</a>

dengan module bs4 ini kita bisa mencari link link yang tersimpan di dalam blog
caranya :

import requests
from bs4 import BeautifulSoup

url = 'https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1'
with requests.Session() as c:
    respon = c.get(url)
    soup = BeautifulSoup(respon.content, "html.parser")
    for link in soup.find_all('a'):
        print (link.get('href'))

ketika agan menjalankan nya maka outputnya akan mengeluar kan banyak link yang terkandung dalam blog ini seperti di bawah ini

https://jejakatutorial-termux.blogspot.com/
https://jejakatutorial-termux.blogspot.com/p/about.html
https://jejakatutorial-termux.blogspot.com/p/name-email-address-important-content.html
https://jejakatutorial-termux.blogspot.com/p/div-idbptocloading-toc.html
https://m.youtube.com/channel/UCn5d8Xbp0yt-SWTmxwtayvQ             
https://jejakatutorial-termux.blogspot.com/
https://jejakatutorial-termux.blogspot.com/p/termux.html
https://jejakatutorial-termux.blogspot.com/p/mining.html
https://jejakatutorial-termux.blogspot.com/p/nuyul.html            https://jejakatutorial-termux.blogspot.com/p/hack.html?m=1
https://jejakatutorial-termux.blogspot.com/
https://www.blogger.com/page-edit.g?blogID=2743239978184035798&pageID=5128740299106525223&from=pencil                                                 https://www.blogger.com/comment-iframe.g?blogID=2743239978184035798&pageID=5128740299106525223
https://jejakatutorial-termux.blogspot.com/feeds/posts/default
http://facebook.com/Jejaka-Tutorial-2230728320541897
http://plus.google.com/106273771548209106947
https://youtube.com/channel/UCn5d8Xbp0yt-SWTmxwtayvQ                   http://instagram.com/lutfi_ainun_32

selanjutnya kita akan mencari blog post atau postingan saya dari url di blog ini

Sebelum itu Agan Harus Tau Id dari bagian yang akan agan ambil
untuk mengetahui nya caranya
pertama silahkan masukk ke browser anda
pastekan di url browser view-source:https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1
lalu cari id yang akan agan ambil, sebagai contoh agan bisa lihat gambar di bawah ini

ok selanjutnya silahkan simak potongan program di bawah ini

import requests
from bs4 import BeautifulSoup

url = 'https://jejakatutorial-termux.blogspot.com/p/belajar-bs4.html?m=1'
with requests.Session() as c:
    respon = c.get(url)
    soup = BeautifulSoup(respon.content, "html.parser")
    print(soup.find(id='post-body-5128740299106525223').text)

silahkan save dan jalankan
outputnya kurang lebih seperti di bawah ini

ini adalah halaman pembelajaran scraping data dengan bs4
                                                                  
kunjungi terus blog ini, karena disini banyak tutorial tutorial menarik untuk termux

kunjungi juga channel youtube Jejaka Tutorial di sana tempat saya mengupload video video tutorial untuk termux