தரவு அறிவியலிற்கான பைத்தான் நூலகம்

pandas, scikit-learn, matplotlib ஆகியவற்றிற்கு அப்பால் ஒருசில புதிய தந்திரமான வழிமுறைகளின் மூலம் பைத்தான் வாயிலாகவே தரவு அறிவியலை செயல்படுத்த முடியும்
துவக்கநிலையாளர்கள் முதல் திறன்மிகுந்தவர்கள் வரையிலும் பயன்படுத்துபவர்கள் எந்தவொரு இக்கட்டிலும் சமாளித்திட மிகமுக்கியமாக தரவுஅறிவியலை இயக்கநேரத்திலும் விரைவாகவும் செயல்படுத்திட இதனுடைய நூலகங்கள் பேருதவியாக இருக்கின்றன
1.Wget எனும் நூலகம்
தரவு அறிவியலாருக்கு முதன்மையான குறிக்கோளே இணையத்திலிருந்து தரவுகளை கொண்டுவருவதுதான் அதற்காக உதவவருவதுதான் Wget எனும் பைத்தானின் நூலகமாகும் இது HTTP, HTTPS, FTP ஆகிய மரபொழுங்குகளை ஆதரிக்கின்றது இது இடைமுகம் இல்லாதது ஆனால் இது குறிப்பிட்ட இணையபக்கத்திற்குள் உள்நுழைவு செய்திடாமலேயே தரவுகளை பதிவிறக்கம் செய்துகொள்ளமுடியும்
$ pip install wget
இதனை எனும் கட்டளை வரிமூலம் நிறுவுகைசெய்து கொள்க பின்னர்
import wget
url = ‘http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3’
filename = wget.download(url)
100% […………………………………………] 3841532 / 3841532
filename
‘razorback.mp3’
ஆகிய கட்டளைவரிகள் வாயிலாக தேவையானவாறு தரவுகளை பதிவிறக்கம் செய்து கொள்க
இதனை நன்கு ஐயம் திரிபற அறிந்து பயன்படுத்தி கொள்வதற்கு https://pypi.org/project/wget/ எனும் இணையதளபக்கத்திற்கு செல்க
2.Pendulum எனும் பைத்தானின் நூலகம்
தொடர்ந்து பணிநாட்களில் பைத்தானில் பணிபுரிந்து வெறுப்படைந்தவர்களுக்கு உதவ காத்திருப்பதுதான் , Pendulum எனும் பைத்தானின் நூலகமாகும் இது அவ்வாறானவர்களின் மகிழ்ச்சியுடன் கையாள உதவுகின்றது .இது பைத்தானின் சொந்த வகுப்புக்கு பதிலாக ஒரு மாற்றீடு ஆகும்
$ pip install pendulum
இதனை எனும் கட்டளை வரிமூலம் நிறுவுகைசெய்து கொள்க பின்னர்
import pendulum
dt_toronto = pendulum.datetime(2012, 1, 1, tz=’America/Toronto’)
dt_vancouver = pendulum.datetime(2012, 1, 1, tz=’America/Vancouver’)
print(dt_vancouver.diff(dt_toronto).in_hours())

ஆகிய கட்டளைவரிகள் வாயிலாக தேவையானவாறு தரவுகளை பதிவிறக்கம் செய்து கொள்க
இதனை நன்கு ஐயம் திரிபற அறிந்து பயன்படுத்தி கொள்வதற்கு https://pendulum.eustace.io/docs/#installation எனும் இணையதளபக்கத்திற்கு செல்க
3.imbalanced-learn எனும் பைத்தானின் நூலகம்
தொடர்ந்துஒவ்வொரு வகுப்பில் உள்ள மாதிரிகள் எண்ணிக்கை கிட்டத்தட்ட ஒரே மாதிரியாக இருக்கும்போது (அதாவது, சமச்சீராக) பெரும்பாலான வகைப்படுத்தலின் நெறிமுறைகள் சிறப்பாக செயல்படுகின்றன. ஆனால் உண்மை வாழ்க்கையானது சமநிலையற்ற தரவுதளங்கள் நிறைந்தவையாகும். இவை படிப்படியான கற்றல் மற்றும் இயந்திர கற்றல் வழிமுறைகளின் முன்கணிப்பு ஆகியவற்றைக் கொண்டிருக்கலாம். அதிர்ஷ்டவசமாக, இந்த சிக்கலை தீர்க்க imbalanced-learn எனும் பைத்தானின் நூலகம் உருவாக்கப்பட்டுள்ளது. இது scikit-learnஇற்கு இணக்கத்தன்மை உடையது,
$pip install -U imbalanced-learn
# அல்லது
conda install -c conda-forge imbalanced-learn
இதனை மேலேகாணூம் கட்டளை வரிமூலம் நிறுவுகைசெய்து பயன்படுத்திகொள்க
இதனை நன்கு ஐயம் திரிபற அறிந்து பயன்படுத்தி கொள்வதற்கு http://imbalanced-learn.org/en/stable/api.html எனும் இணையதளபக்கத்திற்கு செல்க
4.FlashText எனும் பைத்தானின் நூலகம்
இயல்பான மொழி செயலாக்கத்தின்(NLP) போது உரையாலான தரவுகளை சுத்தமாக நீக்கிடும் பணிகளைத் துல்லியமாகத் தரும் போது, முக்கிய வார்த்தைகளை மாற்றுவதன் மூலம் அல்லது சொற்றொடரிலிருந்து சொற்களைப் பிரித்தெடுக்க வேண்டும். வழக்கமாக, இத்தகைய நடவடிக்கைகளை வழக்கமான வெளிப்பாடுகளால் நிறைவேற்ற முடியும், ஆனால் ஆயிரக்கணக்கான எண்ணிக்கையில் சொற்களின் எண்ணிக்கையை தேட வேண்டியநிலையில் அவை சிக்கலானதாகிவிடும்.
FlashText வழிமுறையின் அடிப்படையிலான பைத்தானின் FlashText தொகுதியானது, இதுபோன்ற சூழ்நிலைகளுக்கு பொருத்தமான மாற்றினை வழங்குகிறது. தேடல் சொற்களின் எண்ணிக்கையின் அளவு எவ்வளவாகக் இருந்தாலும் FlashText ஒரே மாதிரியாக சிறப்பாக பணிபுரிகின்றது
$ pip install flashtext
இதனை மேலேகாணூம் கட்டளை வரிமூலம் நிறுவுகைசெய்து கொள்க பின்னர்
திறவுசொற்களை வெளியிலெடுத்திடுவதற்காக பின்வரும்கட்டளைவரிகளை பயன்படுத்திகொள்க :
from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()
# keyword_processor.add_keyword(, )
keyword_processor.add_keyword(‘Big Apple’, ‘New York’)
keyword_processor.add_keyword(‘Bay Area’)
keywords_found = keyword_processor.extract_keywords(‘I love Big Apple and Bay Area.’)
keywords_found
[‘New York’, ‘Bay Area’]
திறவு சொற்களை மாற்றியமைத்திடுவதற்காக:பின்வரும்கட்டளைவரிகளை பயன்படுத்திகொள்க
keyword_processor.add_keyword(‘New Delhi’, ‘NCR region’)
new_sentence = keyword_processor.replace_keywords(‘I love Big Apple and new delhi.’)
new_sentence
‘I love New York and NCR region.’
இதனை நன்கு ஐயம் திரிபற அறிந்து பயன்படுத்தி கொள்வதற்கு https://flashtext.readthedocs.io/en/latest/ எனும் இணையதளபக்கத்திற்கு செல்க
5.FuzzyWuzzyஎனும் பைத்தானின் நூலகம்
சரத்தை பொருத்தும் போது சரத்துடனான ஒப்பீடு விகிதங்கள், டோக்கன் விகிதங்கள், போன்ற செயல்பாடுகளை எளிதில் செயல்படுத்துவதற்கு FuzzyWuzzyயானது மிகவும் உதவிகரமான நூலகமாகும்.மேலும் இது பல்வேறு தரவுத்தளங்களில் பொருத்தப்பட்ட ஆவணங்களுக்கு பொருத்தமானதாகும்.
$ pip install fuzzywuzzy
இதனை மேலேகாணூம் கட்டளை வரிமூலம் நிறுவுகைசெய்து கொள்க பின்னர்
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# Simple Ratio
fuzz.ratio(“this is a test”, “this is a test!”)
97
# Partial Ratio
fuzz.partial_ratio(“this is a test”, “this is a test!”)
 100
ஆகிய கட்டளைவரிகள் வாயிலாக தேவையானவாறு தரவுகளை பதிவிறக்கம் செய்து கொள்க
இதனை நன்கு ஐயம் திரிபற அறிந்து பயன்படுத்தி கொள்வதற்கு https://github.com/seatgeek/fuzzywuzzy எனும் இணையதளபக்கத்திற்கு செல்க
6.PyFlux எனும் பைத்தானின் நூலகம்
காலத்தொடர் பகுப்பாய்வு என்பது இயந்திர கற்றலில் அடிக்கடி சந்திக்கின்ற சிக்கல்களில் ஒன்றாகும். PyFlux என்பது பைதானில் உள்ள ஒரு கட்டற்றநூலகமாகும், இது கால-வரிசை சிக்கல்களுடன் பணியாற்றுவதற்காக வெளிப்படையாக கட்டப்பட்ட நூலகமாகும் ARIMA, GARCH, VAR ஆகியவை உட்பட நவீன கால-வரிசை பகுப்பாய்வு மாதிரிகள் ஒருசில சிறந்த வரிசைகள் நாம் பயன்படுத்தி கொள்ள தயாராக உள்ளன
$ pip install pyflux
இதனை மேலேகாணூம் கட்டளை வரிமூலம் நிறுவுகைசெய்து கொள்க பின்னர்
இதனை நன்கு ஐயம் திரிபற அறிந்து பயன்படுத்தி கொள்வதற்கு https://pyflux.readthedocs.io/en/latest/index.html எனும் இணையதளபக்கத்திற்கு செல்க
7.IPyvolume எனும் பைத்தானின் நூலகம்
தரவுத் தகவல்களின் தகவல்களுடன் தொடர்புகொள்வது ஒரு முக்கியமான அம்சமாகும், மேலும் முடிவுகளை காட்சிப்படுத்தல் ஒரு குறிப்பிடத்தக்க நன்மைகளை வழங்குகிறது. IPyvolume எனும்பைதான் நூலகமானது முப்பரிமான (3D) மதிப்புகளையும் கிளிஃப்களையும் (எ.கா.,முப்பரிமான (3D )சிதறல் அடுக்குகள்) குறைந்தபட்ச கட்டமைப்பு மற்றும் முயற்சிகளுடன் கூடிய ஜுப்பிட்டர் நோட்புக்கில் காட்சியாக காண உதவு கின்றது இருப்பினும், இது தற்போது 1.0-க்கும் முன்பதிபாகவு கிடைக்கின்றது.
$ pip install ipyvolume
Conda/Anaconda
$ conda install -c conda-forge ipyvolume
இதனை மேலேகாணூம் கட்டளை வரிமூலம் நிறுவுகைசெய்து கொள்க பின்னர்
இதனை நன்கு ஐயம் திரிபற அறிந்து பயன்படுத்தி கொள்வதற்கு https://ipyvolume.readthedocs.io/en/latest/?badge=latest எனும் இணையதளபக்கத்திற்கு செல்க
அசைவூட்டத்திற்கு 1
அளவு ஒழுங்மைவிற்கு 2
8.Dashஎனும் பைத்தானின் நூலகம்</strong
Dash என்பது வலை பயன்பாடுகளை உருவாக்குவதற்கான ஒரு பயனுள்ள பைதான் வரைச்சட்டமாகும். இது JavaScript இல்லாமலேயே Flask, Plotly.js, மற்றும் React.js ஆகியவற்றின் மேல் எழுதப்பட்ட நம்முடைய பகுப்பாய்வு பைத்தானின் குறியீட்டை கீழ்தோன்றல்கள், ஸ்லைடர்களை, மற்றும் வரைபடங்கள் போன்ற நவீன UI மூலகங்களைப் பிணைக்கிறது. இணைய உலாவியில் காண்பிக்கக்கூடிய தரவு காட்சிப்படுத்தல் பயன்பாடுகளை உருவாக்குவதற்கு இந்த டாஷ் மிகவும் பொருத்தமானது.
$pip install dash==0.29.0 # dashஇன்முக்கிய பின்புலம்
$pip install dash-html-components==0.13.2 # HTMLஇன் உள்ளுறுப்புகள்
$pip install dash-core-components==0.36.0 # மிக அதிகமேம்பட்ட உள்ளுறுப்புகள்
$pip install dash-table==3.1.3 # இடைமுகம் செய்திடும் தரவுஅட்டவணை உள்ளுறுப்பு(புதிய!)
இதனை மேலேகாணூம் கட்டளை வரிமூலம் நிறுவுகைசெய்து கொள்க
இதனை நன்கு ஐயம் திரிபற அறிந்து பயன்படுத்தி கொள்வதற்கு https://dash.plot.ly/ எனும் இணையதளபக்கத்திற்கு செல்க

கீழ்க்காணும் எடுத்துக்காட்டு கீழ்தோன்றல் திறன்களைக் கொண்ட உயர்ந்த அசைவூட்டு வரைபடத்தைக் காட்டுகிறது. பயனர் கீழ்தோன்றலில் ஒரு மதிப்பைத் தேர்ந்தெடுக்கும்போது, பயன்பாட்டுக் குறியீடு கூகிள் நிதிஅட்டவணையிலிருந்து தரவுகளை ஒரு பாண்டஸ் டேட்டா ஃப்ரேம் ஆக ஏற்றுமதி செய்கிறது. 3

9.Gym எனும் பைத்தான் நூலகம்

OpenAI எனும் கட்டற்ற செயற்கைநினைவகத்திலிருந்து Gym ஆனது, வலுவூட்டப்பட்ட கற்றல் வழிமுறைகளின் வாயிலாக மேம்படுத்திடுவதற்கும் ஒப்பிடுவதற்கான ஒரு கருவி ஆகும். இது TensorFlow அல்லது Theano போன்ற எந்த எண் கணிப்புக் கணிப்பீட்டிற்கும் இணக்கமானது. இந்த Gym நூலகமானது பரிசோதனை சிக்கல்களின் தொகுப்பாகும், இது அவைகளின் சூழல்களாகவும் அழைக்கப்படுகிறது, நம்முடைய வலுவூட்ட-கற்றல் வழிமுறைகளை உருவாக்க நாம் பயன்படுத்திகொள்ளலாம். இதில் சூழல்களின் பகிர்வு இடைமுகம் உள்ளது, இது பொது வழிமுறைகளை எழுத அனுமதிக்கிறது.
$pip install gym
இதனை மேலேகாணூம் கட்டளை வரிமூலம் நிறுவுகைசெய்து கொள்க
பின்வரும் எடுத்துகாட்டில் 1,000 சூழல்களுக்கு சுற்றுச்சூழல் CartPole-v0 இன் ஒரு உதாரணமாக செயல்படுகின்றது, இதில் ஒவ்வொரு படிமுறையிலும் சுற்றுச்சூழலின் விவரங்களை வழங்குகின்றது

இதனை நன்கு ஐயம் திரிபற அறிந்து பயன்படுத்தி கொள்வதற்கு https://github.com/openai/gym எனும் இணையதளபக்கத்திற்கு செல்க

நாம் மேலும் விரும்பினால் https://gym.openai.com/ எனும் இணைய முகவரிக்கு சென்று மேலும் சூழல்களை சேர்த்திடலாம்

MySQLஇற்கும் TiDB எனும் கட்டற்ற புதிய SQL தரவுதளத்ததிற்குமிடையேயான வேறுபாடுகள் யாவை

தற்போது வியாபார நிறுவனங்களனைத்தும் மேககணினியின் அடிப்படைகட்டமைவில் தரவுதளங்களை கையாள உதவவருவதுதான் TiDB எனும் கட்டற்ற புதிய SQL தரவுதளமாகும் இது MySQLஇன் ஒழுங்குமுறையை பின்பற்றுவதுமட்டுமல்லாமல் மிகுதி செயல்கள் அனைத்தும் ஏறத்தாழ SQLஎன்பதை ஒத்திருக்கின்றன ஆயினும் இந்த TiDB ஆனது MySQLஇற்கு சிறிது வித்தியாசமானது அவ்வித்தியாசங்கள் பின்வருமாறு
1.பொதுவாக MySQL ஆனது பிரதிபலிப்பு மூலம் அளவிடப்படுகின்றது . நம்மிடம் ஒரு MySQL மாஸ்டர் ஒன்றும் தரவு ஒவ்வொன்றிற்கும் ஒரு முழுமையான நகலான பல அடிமைகளும் இருக்க வேண்டும்,. பதிலாள்SQL போன்ற பயன்பாட்டு தருக்கம் அல்லது தொழில்நுட்பத்தைப் பயன்படுத்தி, வினாக்கள் அனைத்தும் சரியான சேவையகத்திற்கு அனுப்பப்படுகின்றன இதில் பிரதிபலிக்கும் அடிமைகளுக்கு இடையில் வினாக்கள் பிரிக்கப்பட்டு செயல்படுத்தப்பட்டால் வெளியீட்டு அளவிடும் பிரிதிபலிப்பசெயலானது படிக்கக்கூடிய வகையில் மிகவும் நன்றாக செயல்படுகின்றது, . இருப்பினும், இது எழுதப்பட்ட கனமான பணிச்சுமைகளுக்கு ஒரு சிக்கலை ஏற்படுத்துகின்றது, ஏனென்றால் ஒவ்வொரு பிரதிக்கும் தரவின் முழு நகலையும் கொண்டிருக்க வேண்டும். இதை மற்றொரு வழியிலும் பார்க்கலாம் அதாவது MySQL பிரதிபலிப்பானது SQL செயலாக்கத்தை அளவிடுகிறது, ஆனால் இது சேமிப்பகத்தை அளவிடாது
அதற்குபதிலாக TiDB எனும் கட்டற்ற புதிய SQL தரவுதளத்தில் ஒரு TiDB சேவையக அடுக்கின் வாயிலாக ஒவ்வொரு வினாக்களும் கையாளபடுகின்றன வெளியீட்டு அளவிடும்SQL செயலாக்கமானது புதிய TiDB சேவையாளரை சேர்ப்பதன் வாயிலாக செயல்படுத்தப்படுகின்றது அதன்வாயிலாக குபேர்நெட்பிரதிபலிப்புதொகுப்பில்செயற்படுத்துவது மிகஎளிய செயலாகின்றதுTiDB சேவையாளர் நிலையற்றதாக இருப்பதால் TiKVசேமிப்பகமே அனைத்து தரவுகளும் நிலைத்திருப்பதற்கு பொறுப்பாளராக விளங்குகின்றது TiKV சேவையாளர்களுக்கிடையே சிறு தொகுதிகளாக அட்டவணையின் தரவுகளை தானகாவே பகிர்ந்து அளிக்கின்றது மூன்று நகல்களை ஒவ்வொரு தரவுப்பகுதிக்கும் TiKV கொத்தில் வைத்து பாதுகாக்கப்படுகின்றது ஆனாலும் TiKV சேவையாளரானது முழுமையான தரவு நகலைவைத்திருக்காது ஆயினும் ஒரேநேரத்தில் இது தலைமை , அடிமை ஆகியஇரண்டையும்வைத்துள்ளது அதன்வாயிலாக தரவு பகுதிக்கு முதன்மைநகலையும் வேறு பகுதிக்கு இரண்டாவது நகலையும் கொண்டுள்ளது
இது SQL செயலாக்க மற்றும் தரவு சேமிப்பக அடுக்குகளை நெருக்கடியில்லாமல் சுதந்திரமாக அளவிடுகிறது. இது முனைமங்களை சேர்ப்பதன் மூலம் படிப்படியாக உயருவதை அளவிடுகிறது இது வன்பொருட்களை சிறந்த முறையில் பயன்படுத்துகிறது
2.MySQL ஆனது இயல்புநிலையில் தரவுகளை தேக்கிடும்பொறியாக B+tree எனும் தரவு கட்டமைவினை கொண்ட InnoDB எனும் வழக்கமான வியாபார தரவு-தளத்தினை பயன்படுத்தி கொள்கின்றது
அதற்கு பதிலாக TiDB ஆனது TiKV உடன் சேர்ந்த பேரளவு தரவுகளை கையாளுவதற்கான RocksDB தரவுகளை தேக்கிடும்பொறியாக பயன்படுத்தி கொள்கின்றது
3. MySQLஆனது மையபடுத்தப்பட்ட தொகுப்பான நினைவக அட்டவணைகளை வழக்கமான SQL வினாக்களை கையாளும் Performance Schema வை Tracking key metrics ஆக பயன்படுத்தி கொள்கின்றது
TiDB ஆனது உள்ளக metrics இற்குபதிலாக Prometheus+Grafana எனும் வெளிப்புற தொழில்நுட்பத்தை பயன்படுத்தி கொள்கின்றது
4.MySQLஇல் வெவ்வேறு அளவிலான அட்டவணையில் புதிய நெடுவரிசையை அல்லது கிடைவரிசையை சேர்த்து அனைத்து முனைமங்களிலும் நிகழ்நிலைபடுத்தி கொள்வதற்காக shardingஎனும் வழிமுறை பின்பற்றபடுகின்றது
TiDBஇல் தனித்தனியாக ஒவ்வொரு முனைமங்களில் நிகழ்நிலைபடுத்தி கொள்வதற்காக தரவு வரையறுக்கப்பட்டமொழி (DDL)எனும் வழிமுறை பின்பற்றபடுகின்றது
5. MySQL இல் எவ்வளவு சிக்கலான வினாக்களையும் கையாள எளிய OLTPவினாவழிமுறை பின்பற்றபடுகின்றது
TiDBஇல்எவ்வளவு சிக்கலான வினாக்களையும் விரைவாக கையாள hybrid transaction/analytical processing (HTAP)வினா எனும் வழிமுறை பின்பற்றபடுகின்றது

PostgreSQL, MariaDB, SQLite ஆகிய கட்டற்ற தரவுதளங்கள் ஒரு ஒப்பீடு

பொதுவாக நாம் பயன்படுத்தி கொண்டுவருகின்ற அனைத்து கட்டற்ற தரவுதளங்களும் சமமன்று ஒவ்வொன்றும் ஒவ்வொருவகையில சிறப்புதன்மைகளை கொண்டுவிளங்கும் அதனால் இங்கு PostgreSQL, MariaDB, SQLite ஆகிய மூன்று கட்டற்ற தரவுதளங்களைபற்றி ஒரு ஒப்பீடு செய்வோம்
1.PostgreSQLஎன்பது பேரளவு தரவுகளை இதனுடைய central algorithm, எனும் வசதியை கொண்டு bottleneck எனும் நெருக்கடி இல்லாமல் எளிதாக கையாளுகின்றது Python, Perl, Java, Ruby, C, , R.ஆகிய சேவையாளர் கணினிமொழிகளுள் நமக்கு தெரிந்ததை கொண்டு இதில் செயலிகளை உருவாக்கி கட்டமைத்து கொள்ளலாம் இதனை பயன்படுத்திடும்போது நமக்கு எழும் எந்தவொரு சந்தேகத்தையும் தீர்வுசெய்வதற்காக PostgreSQL’s community எனும் இதனுடைய உதவிடும் குழு தயாராக இருக்கின்றது இதில் parallelization , clustering ஆகிய மேம்பட்ட கருவிகளை பயன்படுத்தி கொள்ளவிழைந்தால் மூன்றாவது நபரின்கூடுதல் இணைப்பினை கோரி பெறவேண்டியுள்ளது
2.MariaDBஎன்பதில் அவ்வப்போது பாதுகாப்புதிட்டங்கள் மேம்படுத்தி வெளியிடப்படுகின்றது இது மற்ற தரவுதளங்களுடன் ஒத்தியங்குவதால் ஒரு தரவுதளத்திலிருந்து மற்றொன்றிற்கு மிகவிரைவாக மாறிக்கொள்ளமுடியும் WordPressஉடன் MySQLஇற்கு பதிலாக MariaDB ஐ இணைத்து நிறுவுகை செய்து இயக்கி நாம் விரும்பும் பயன்களை எளிதாக பெறலாம் இதில் Cachingஎனும் வசதி குறைவாக இருப்பதால் இதனை திரையில் கொண்டு வருவதற்கு சிறிது கால அவகாசத்தினை எடுத்து கொள்கின்றது ஒத்தியங்குவதில் சிறிது குறைபாடு இருப்பதால் MariaDB இலியிருந்து MySQLஇற்கு மாறிடும்போது குறிமுறை வரிகளை சிறிது மாறுதல் செய்யவேண்டியுள்ளது
3.SQLite சிறிய அளவில் தரவுதளத்தினை கட்டமைவுசெய்திட இதுபேருதவியாய் விளங்குகின்றது இதுமிகஎளிய குறைந்தஅளவே கொள்ளளவைகொண்டிருப்பதால் மிகவிரைவாக செயல்படுகின்றது இதனை திறன்பேசியிலும் செயல்படுத்தி பயன்பெறமுடியும் இதில் data encryption எனும் வசதிஇல்லாததால் தாக்குதல் செய்பவர்களுக்கு வசதியாகஉள்ளது இதனை பல பயனாளர் பயன்படுத்திடும் வகையில் மேம்படுத்திடமுடியாது
இம்மூன்றில் சிறியஅளவில் பயன்படுத்திகொள்ளலாம் என எண்ணுபவர்கள் அதாவது சிறுகுறு நிறுவனங்கள் தனிநபர் நிறுவனங்கள்SQLite ஐயும் பேரளவு நிறுவனங்கள் முதலிரண்டையும் பயன்படுத்தி கொள்க என பரிந்துரைக்கப் படுகின்றது

Pydbgen ஒரு அறிமுகம்

Pydbgenஎன்பதுமிகச்சிறிய அளவேயான ஏதாவதுதொருசீரற்ற(random ) பயனுள்ள உள்ளீடுகளை ( அதாவது பெயர் ,முகவரி, கடனட்டை எண், நாள் நேரம் ,நிறுவனத்தின் பெயர், பதவியின்பெயர் ,பணியாளரின் பெயர் அனுமதிஅட்டைஎண் என்பன போன்றவைகளை )உருவாக்குவதற்கு உதவிடும் ஒரு முழுமையான பைத்தானின் நூலகமாகும் தொடர்ந்து அவ்வாறு உருவாக்கிய உள்ளீடுகளை நாம் விரும்பும் வகையில் ஒரு Pandas தரவுவரைச் சட்டபொருளாகவோ தரவுதளகோப்பின் ஒரு SQLite அட்டவணையாகவோ அல்லது ஒரு மைக்ரோசப்ட் எக்செல்கோப்பாகவோ சேமித்துகொள்ளும் இந்த Pydbgen 1.0.5 எனும் நடப்பு பதிப்பாக PyPI (the Python Package Index repository)இல் வெளியிடபட்டுள்ளது இதனை நிறுவுகை செய்வதற்காக https://faker.readthedocs.io/en/latest/index.html எனும் தளத்தின் உதவியை பெற்றுக்கொள்க தொடர்ந்து pip install pydbgen எனும் கட்டளைவரியை செயல்படுத்திடுக இது பைத்தானின் 3.6 எனும் பதிப்பில் மட்டும் செயல்படும் பைத்தான் 2 எனும் பதிப்பில் செயல்படாது இந்த Pydbgen ஐ பயன்படுத்ததுவங்குவதற்காக pydb எனும்பொருளை துவங்கிடவேண்டும் அதற்கான கட்டளை வரிகள் பின்வருமாறு
import pydbgen
from pydbgen import pydbgen
myDB=pydbgen.pydb()
அதனை தொடர்ந்து pydb எனும்பொருளை துவங்கியபின்னர் இதன் விரிவாக்கமான பல்வேறு உள்ளக செயலிகளை அனுகி பயன்படுத்தி கொள்ளமுடியும் பின்வருமாறு செயலிகளின் கட்டளைவரிகளின் வாயிலாக நகரங்களின் பெயர்களை அச்சிடலாம்
myDB.city_real()
>> ‘Otterville’
for _ in range(10):
print(myDB.license_plate())
>> 8NVX937
6YZH485
XBY-564
SCG-2185
XMR-158
6OZZ231
CJN-850
SBL-4272
TPY-658
SZL-0934
அதேபோன்று city_real என்பதற்கு பதிலாக cityஎனஉள்ளீடுசெய்தால் கற்பணையான நகரங்களின் பெயர் வெளியீடாக கிடைக்கும்
print(myDB.gen_data_series(num=8,data_type=’city’))
>>
New Michelle
Robinborough
Leebury
Kaylatown
Hamiltonfort
Lake Christopher
Hannahstad
West Adamborough
இதற்கடுத்தபடியாகஒவ்வொருமுறையும் string/texts. ஆக எத்தனை பெயர்கள் பட்டியலாக வரவேண்டும் எந்தவகைதரவுகளின் பட்டியலாக உருவாகவேண்டும் என தெரிவுசெய்து கொண்டு ஒரு Pandas தரவுவரைச் சட்டபொருளாகவோ தரவுதளகோப்பின் ஒரு SQLite அட்டவணையாகவோஉருவாக்கி சேமித்திடலாம் அதற்கான கட்டளைவரி பின்வருமாறு
testdf=myDB.gen_dataframe(5,[‘name’,’city’,’phone’,’date’])
testdf
உடன் இதன் வெளியிடு பின்வருமாறு இருக்கும்

1
தொடர்ந்து ஒவ்வொருமுறையும் தரவுதளத்திற்கான text/VARCHARதரவுவகையாக எத்தனை பெயர்கள் பட்டியலாக வரவேண்டும் எந்தவகைதரவின் பட்டியலாக உருவாகவேண்டும் என தெரிவுசெய்து கொண்டு ஒரு SQLite அட்டவணையாக உருவாக்கி சேமித்திடலாம் அவ்வாறு சேமித்திடும்போது நாம் விரும்பும் தரவுதளகோப்பின் பெயர் அட்டவணையின் பெயருடன் உள்ளீடு செய்திடலாம் அதற்கான கட்டளைவரிகள் பின்வருமாறு
myDB.gen_table(db_file=’Testdb.DB’,table_name=’People’,
fields=[‘name’,’city’,’street_address’,’email’])
இந்த கட்டளைவரிகளை செயல்படுத்தியவுடன் MySQL அல்லது the SQLite தரவுதள சேவையாளரை பயன்படுத்தி ஒரு db கோப்பாக உருவாக்கி சேமி்க்கின்றது இதனை பின்வருமாறு DB உலாவியில் திறந்து தரவுதள கோப்பாக காண்பிக்கின்றது


2
அதனை தொடர்ந்து பின்வரும் கட்டளைவரிகளின் வாயிலாக இதையே மைக்ரோசாப்டின் எக்செல்கோப்பாக உருவாக்கிசேமித்திடலாம்
குறிப்புஇந்த கட்டளைவரிகளில் phone_simpleiஎன்பதற்கு False என அமைத்து கொள்வது சிக்கலில்லாமல் பயனுள்ள எக்செல் அட்டவணை உருவாகுவதற்கு ஏதுவாகிவிடும்
myDB.gen_excel(num=20,fields=[‘name’,’phone’,’time’,’country’],
phone_simple=False,filename=’TestExcel.xlsx’)
இதனை செயல்படுத்தியவுடன் பின்வருமாறு எக்செல் அட்டவணை கிடைத்திடும்

3

இதே pydbgen இல் உள்ளிணைந்த realistic_email எனும் வழிமுறையை பயன்படுத்தி ஒரே பெயருக்கு வெவ்வேறு வகையிலான மின்னஞ்சல்முகவரிகளை உருவாக்கிடலாம் உள்நுழைவுசெய்திடும் புதியதான எந்தவொரு இணையபக்கத்திலும் இதனை பயன்படுத்தி கொள்ள வசதியாக இருக்குமல்லவா
இதற்கன கட்டளை வரி பின்வருமாறு for _ in range(10):
print(myDB.realistic_email(‘kuppan Sarkarai’))
>>
இதனை தொடர்ந்து உருவாகும் மின்னஞ்சல்முகவரிகள்பின்வருமாறு
kuppan_Sarkar@gmail.com , Sarkarai.kuppan@outlook.com ,kuppan_S58@verizon.com ,
kuppan_Sarkarai68@yahoo.com ,kuppan.S48@yandex.com ,kuppan.S@att.com , Sarkarai.kuppan60@gmail.com ,kuppan.Sarkarai@zoho.com ,Sarkarai.kuppan @protonmail.com .
kuppan.S@comcast.net
இவ்வாறு பல்வேறு பயனுள்ள வகையில் இந்த pydbgen பயன்படுத்தி கொள்ளமுடியும்

Gitbaseஒரு அறிமுகம்

Gitbase என்பது கோ எனும் கணினிமொழியின் அடிப்படையில் SQL வினாக்ககளை கொண்டு Git களஞ்சியங்களை இயக்க அனுமதிக்கும் ஒரு கட்டற்ற செயல்திட்ட தரவுதளமாகும் குறியீட்டு பதிப்பிற்கான தரநிலையை நடைமுறையில் Git ஆனது பெற்றுள்ளது அதனுடன் குறிமுறையிலான பேரளவு தரவுகளின் தன்மையையும் கோ எனும் கணினிமொழியின் அடிப்படையில்இணைத்து பேரளவு தரவுகளை ஆய்வு செய்வதற்காக இந்தGitbase என்பது செயல்படுத்தப்படுகின்றது Gitbase-இனுடைய பயனாளர் இடைமுகமானது அதாவது MySQLஒழுங்குமுறையின் படி SQL இன் பேரளவு தரவுகளின் பகுத்தறியும் கோரிக்கை பற்றி நாம் அறிந்திருந்தால் போதும் இந்த Gitbase ஐ எளிதாக கையாளலாம் Git இன் மேம்படுத்தப்பட்ட விரிவாக்கத்தை முழுமையான கோ எனும் கணினிமொழியில் செயல்படுத்தஉதவிடும்go-git-உம் குறிமுறைவரிகளை பகுப்பய்வுடன் குறிமுறைவரிகோப்புகளை உலகளாவிய சுருக்க தொடரியலாக உருவாக்கவதற்கும்(UAST) உதவும் எனும் babelfisசேவையாளரும் சேர்ந்து Gitbase ஐ செயல்படுத்துவதை எளிமையாக்கி-யுள்ளது தற்போதைய அவசர அதிநவீன யுகத்தில்ஒரேயொரு வரிகுறிமுறையில் நாம் எதிர்பார்த்திடும் முடிவுஉடனடியாக கிடைக்க வேண்டும் என எதிர்பார்த்திடுகின்றோம் அதனை இந்த Gitbase என்பது மிகவிரைவாக நிறைவுசெய்திடும் என்பது திண்ணம் மேலும் விவரங்களுக்குhttps://github.com/src-d/gitbase எனும் இணையபக்கத்திற்கு செல்க