Datori, Informācijas tehnoloģijas

Mūsdienu datorzināšanas. Datora redzes uzdevumi un tehnoloģijas. Datora redzes programmēšana Pitonā

Kā iemācīt datoru, lai saprastu, kas ir attēlots attēlā vai fotoattēlā? Šķiet viegli mums, bet datoram tā ir tikai matrica, kas sastāv no nulām un tiem, no kuriem ir nepieciešams iegūt svarīgu informāciju.

Kas ir datorvīzija? Šī ir datora spēja "redzēt"

Vīzija ir svarīgs informācijas avots personai, ar to palīdzību mēs, atkarībā no dažādiem datiem, saņemam no 70 līdz 90% no visas informācijas. Un, protams, ja mēs vēlamies izveidot viedu iekārtu, mums ir jāievieš tādas pašas prasmes datorā.

Datora redzes uzdevumu var formulēt diezgan izplūdis. Kas ir "redzēt"? Tas ir saprast, kur atrodas, tikai meklē. Šī ir atšķirība starp datoru redzi un cilvēka redzējumu. Vīzija mums ir zināšanu avots par pasauli, kā arī metrikas informācijas avots, tas ir, spēja saprast attālumus un dimensijas.

Tēla semantiskā kodols

Apskatot attēlu, mēs varam to raksturot vairākos veidos, lai runātu, lai iegūtu semantisko informāciju.

Piemēram, aplūkojot šo fotoattēlu, varam teikt, ka tas ir ārpus telpas. Kāda ir šī pilsēta, ielu satiksme. Ka šeit ir automašīnas. Ar ēkas konfigurāciju un hieroglifiem mēs varam uzminēt, ka tā ir Dienvidaustrumāzija. Saskaņā ar Mao Zedong portretu, mēs saprotam, ka tas ir Pekinā, un, ja kāds pats ir redzējis videoklipu vai apmeklē pats, viņš varēs uzminēt, ka tas ir slavenais Tiananmenas laukums.

Ko mēs varam teikt par attēlu, apsverot to? Mēs varam izvēlēties objektus uz attēla, teiksim, ka tur ir cilvēki, turklāt tuvāk ir žogs. Šeit ir lietussargi, šeit ir ēka, šeit ir plakāti. Šie ir ļoti svarīgu objektu klases piemēri, par kuriem šobrīd tiek meklēti.

Mēs varam arī iegūt daži objektu atribūti vai atribūti. Piemēram, šeit mēs varam noteikt, ka tas nav dažu parasto ķīniešu portretu, proti, Mao Zedong.

Ar automašīnu jūs varat noteikt, ka tas ir kustīgs objekts, un tas ir grūti, tas ir, tas deformējas kustības laikā. Par karodziņiem var teikt, ka tie ir objekti, tie arī pārvietojas, bet tie nav stingri, pastāvīgi deformēti. Un arī šajā skatē ir vējš, to var noteikt ar jaunattīstības karogu, un pat jūs varat noteikt vēja virzienu, piemēram, tas pūš no kreisās puses uz labo.

Attāluma un garuma vērtība datora redzējumā

Ļoti svarīga ir zinātnes metriskā informācija par datora redzi. Šie ir visi iespējamie attālumi. Piemēram, roveram tas ir īpaši svarīgi, jo komandas no Zemes iet apmēram 20 minūtes, un atbilde ir tāda pati. Attiecīgi savienojums tur un atpakaļ - 40 minūtes. Un, ja mēs izstrādājam Zemes komandu kustības plānu, tad mums tas jāņem vērā.

Par laimi, datoru vizuālās tehnoloģijas tiek integrētas video spēlēs. Saskaņā ar video, jūs varat veidot trīsdimensiju objektu, cilvēku un lietotāju fotoattēlu modeļus, var atjaunot trīsdimensiju modeļus no pilsētām. Un tad ej uz tiem.

Datorzinātne - tas ir diezgan plašs apgabals. Tas ir cieši saistīts ar dažādām citām zinātnēm. Daļēji datorzināšanas Attēlo attēla apstrādes apgabalu un dažreiz identificē datora redzes lauku, tas ir vēsturiski.

Analīze, modeļu atpazīšana - veids, kā radīt augstāku prātu

Mēs analizēsim šos jēdzienus atsevišķi.

Attēlu apstrāde ir algoritmu apgabals, kurā ieejas un izejas ir attēls, un mēs jau ar to kaut ko darām.

Attēlu analīze ir datorsistēmas vīzija, kas koncentrējas uz darbu ar divdimensiju attēlu un no tā izdarot secinājumus.

Attēlu atpazīšana ir abstrakta matemātiskā disciplīna, kas atzīst datus vektoru veidā. Tas nozīmē, ka ievadne ir vektors, un mums tas ir jādara. No kurienes šis vektors mums nav tik svarīgi zināt.

Datora vīzija - tā sākotnēji tika atjaunota divdimensiju attēlu struktūra. Tagad šī joma ir kļuvusi plašāka, un to parasti var uzskatīt par lēmumu pieņemšanu par fiziskiem objektiem, pamatojoties uz attēlu. Tas ir, tas ir mākslīgā intelekta uzdevums .

Vienlaikus ar datoru redzi pilnīgi citā vietā, ģeodēzijā izstrādāta fotogrammetrija - tas ir attālumu mērīšana starp objektiem uz divdimensiju attēliem.

Roboti var "redzēt"

Un pēdējā lieta ir mašīnas vīzija. Ar datoru redzējumu saprot robotu redzi. Tas ir dažu ražošanas problēmu risinājums. Mēs varam teikt, ka datorsvīzija ir viena liela zinātne. Tas apvieno dažas citas zinātnes daļēji. Un, kad datora redze saņem konkrētu lietojumu, tā kļūst par datora vīziju.

Datorvizuālajā jomā ir daudz praktisku pielietojumu. Tas ir saistīts ar ražošanas automatizāciju. Uzņēmumos kļūst efektīvāk nomainīt rokas darbus ar mašīnām. Mašīna nenogurst, nemirgo, tam ir neregulēts darba grafiks, tas ir gatavs strādāt 365 dienas gadā. Tātad, izmantojot mašīnu darbu, mēs varam saņemt garantētu rezultātu noteiktā laikā, un tas ir diezgan interesants. Visiem datoru vizuālo sistēmu uzdevumiem ir vizuāls pielietojums. Un nav nekas labāks par rezultāta tūlītēju redzēšanu no attēla, tikai aprēķina stadijā.

Par mākslīgā intelekta pasaules sliekšņa

Plus platība - tas ir sarežģīti! Nozīmīga smadzeņu daļa ir atbildīga par redzējumu, un tiek uzskatīts, ka, ja jūs iemācāt datoram "redzēt", tas ir, lai pilnībā izmantotu datorvīziju, tad tas ir viens no pilnajiem mākslīgā intelekta uzdevumiem. Ja mēs varam atrisināt problēmu cilvēka līmenī, visticamāk, tajā pašā laikā mēs atrisināsim AI problēmu. Kas ir ļoti labs! Vai ne ļoti labi, ja paskatās uz "Terminator 2".

Kāpēc redze ir grūta? Tā kā viena un tā paša objekta attēls var ievērojami atšķirties atkarībā no ārējiem faktoriem. Atkarībā no novērošanas punktiem objekti izskatās citādi.

Piemēram, viens un tas pats skaitlis, nošauti no dažādiem leņķiem. Un kas ir visinteresantākais, skaitlim var būt viena acs, divas acis vai puse. Un atkarībā no konteksta (ja tas ir vīrieša foto ar T-kreklu ar krāsotām acīm), tad acs var būt vairāk par diviem.

Dators vēl nesaprot, bet jau "redz"

Vēl viens faktors, kas rada sarežģītību, ir apgaismojums. Tas pats sižets ar dažādu apgaismojumu izskatīsies citādi. Objektu izmērs var atšķirties. Un objekti no jebkuras klases. Nu, kā jūs varat teikt par vīrieti, ka viņa augstums ir 2 metri? Nekādā veidā. Cilvēka augstums var būt 2,3 m un 80 cm. Tāpat kā citi objekti, tie tomēr ir vienas klases objekti.

Īpaši dzīvojamie objekti tiek pakļauti dažādām deformācijām. Cilvēku mati, sportisti, dzīvnieki. Paskaties uz skriešanās zirgu attēliem, nav iespējams noteikt, kas notiek ar viņu krogu un asti. Objektu pārklāšanās attēlā? Ja jūs uzzīmējat šādu attēlu datorā, pat visspēcīgākajai mašīnai būs grūti iegūt pareizo risinājumu.

Nākamais veids ir noslēpums. Daži objekti, dzīvnieki ir maskēti zem vidē, un prasmīgi pietiekami. Un traipi ir vienādi un krāsa. Bet tomēr mēs redzam tos, lai gan ne vienmēr no tālienes.

Vēl viena problēma ir kustība. Kustībā esošie objekti izceļ neiedomājamas deformācijas.

Daudzi objekti ir ļoti mainīgi. Piemēram, divās fotogrāfijās zem objektiem, piemēram, "krēsls".

Un par to jūs varat sēdēt. Bet iemācīt mašīnai, ka šādas dažādas lietas formā, krāsā, materiālā ir visi "krēsla" priekšmeti - ļoti grūti. Tas ir uzdevums. Integrēt datoru redzes metodes - tas ir, lai iemācītu mašīnai saprast, analizēt, pieņemt.

Datora redzes integrēšana dažādās platformās

Masās datoru redze sāka aizsniegt vēl 2001.gadā, kad tika izveidoti pirmie seju detektori. Vai šie divi autori: Viola, Jones. Tas bija pirmais ātrs un pietiekami ticams algoritms, kas parādīja mašīnu mācību metožu spēju.

Tagad datora vīzija ir diezgan jauna praktiska pielietošana - cilvēka seansa atpazīšana.

Bet cilvēks nav atpazīstams, kā parādīts filmās - patvaļīgos leņķos ar dažādiem apgaismojuma apstākļiem. Bet, lai atrisinātu problēmu, viens no tiem vai dažādiem cilvēkiem ar atšķirīgu apgaismojumu vai dažādās pozīcijās, līdzīgs, piemēram, fotogrāfijas pasē, var būt ar lielu pārliecību.

Prasības pases fotogrāfijām galvenokārt ir saistītas ar sejas atpazīšanas algoritmu īpatnībām.

Piemēram, ja jums ir biometriskā pase, tad dažās mūsdienu lidostās varat izmantot automātisku pases kontroles sistēmu.

Neatrisinātā datora redzes problēma ir spēja atpazīt patvaļīgu tekstu

Varbūt kāds izmantoja teksta atpazīšanas sistēmu. Viens no tiem ir Fine Reader, kas ir ļoti populāra sistēma Runet. Ir daudz veidu, kur jums ir jāaizpilda dati, tie ir perfekti skenēti, informāciju ļoti labi atzīst sistēma. Bet ar patvaļīgu tekstu par attēlu, lietas ir daudz sliktākas. Šis uzdevums joprojām nav atrisināts.

Spēles, kas saistītas ar datoru redzi, kustību uztveršanu

Atsevišķa liela platība ir trīsdimensiju modeļu un kustību uztveršanas izveidošana (kas diezgan sekmīgi tiek īstenota datorspēlēs). Pirmā programma, kas izmanto datoru redzi, ir sistēma, kas mijiedarbojas ar datoru, izmantojot žestus. Kad tas tika izveidots, bija daudz, kas bija atvērts.

Pati algoritms ir diezgan vienkāršs, taču, lai to konfigurētu, bija nepieciešams izveidot cilvēku mākslīgo attēlu ģeneratoru, lai iegūtu miljonu bildes. Superkomponents ar viņu palīdzību ieguva algoritma parametrus, saskaņā ar kuriem tas tagad darbojas vislabāk.

Tā kā miljons attēlu un superkompiutera laika nedēļa ļāva radīt algoritmu, kas patērē 12% no viena procesora jaudas un ļauj uztvert personas pozu reālajā laikā. Šī ir Microsoft Kinect sistēma (2010).

Attēlu meklēšana pēc satura ļauj jums augšupielādēt fotoattēlu sistēmā, un pēc rezultātiem tajā tiks parādīti visi attēli ar tādu pašu saturu un no tā paša leņķa.

Datorvizuāla piemēri: ar to tiek veidotas trīsdimensiju un divdimensiju kartes. Automātisko navigatoru kartes tiek regulāri atjauninātas saskaņā ar DVR datiem.

Ir bāze ar miljardiem fotogrāfiju ar ģeometriem. Notiek šī datubāzes momentuzņēmuma augšupielāde, jūs varat noteikt, kur tā tika izveidota un pat no kādas perspektīvas. Protams, ar nosacījumu, ka vieta ir diezgan populāra, ka vienā reizē bija tūristus un notika vairākas vietas fotogrāfijas.

Roboti ir visur

Robotika tagad ir visur, bez tā vispār. Tagad ir automašīnas, kurās ir īpašas kameras, kas atzīst gājējus un ceļa zīmes, lai vadītājam nodotu komandas (tas ir datorsistēmas redzes programma, kas palīdz automašīnas entuziastiem). Un ir pilnībā automatizētas robotu automašīnas, taču tās nevar paļauties tikai uz kameru sistēmu, neizmantojot daudz papildu informācijas.

Mūsdienu kamera ir kameras obscura analogs

Parunāsim par digitālo attēlu. Mūsdienu digitālās kameras ir veidotas pēc kameras obscura principa. Tikai tā vietā, ka caurums caur kuru gaismas staru iekļūst un projektē objekta kontūru kameras aizmugurējā sienā, mums ir īpaša optiska sistēma, ko sauc par objektīvu. Tās uzdevums ir salikt lielu gaismas staru un pārveidot tā tā, lai visi starmeši šķērso vienu virtuālo punktu, lai iegūtu projicēšanu un izveidotu attēlu uz plēves vai matricas.

Mūsdienu digitālās kameras (matricas) sastāv no atsevišķiem elementiem - pikseļiem. Katrs pikselis ļauj jums izmērīt gaismas enerģiju, kas kopumā ietilpst šajā pikselī, un izsniedz vienu numuru. Tāpēc digitālajā kamerā attēla vietā tiek izmantots gaismas spilgtuma mērījumu kopums, kas iekļauts atsevišķā pikselī - datora skatīšanās laukos. Tā kā attēls tiek palielināts, mēs neredzam gludas līnijas un skaidrus kontūrus, bet pikseļu tīklu, kas ir krāsoti dažādos toņos - pikseļos.

Zemāk redzams pirmais digitālais attēls pasaulē.

Bet kas šajā attēlā trūkst? Krāsa Un kas ir krāsa?

Krāsu psiholoģiskais uztvere

Krāsa ir tā, ko mēs redzam. Objekta krāsa, tas pats priekšmets cilvēkam un kaķim būs atšķirīgs. Tā kā mums (cilvēkiem) un dzīvniekiem ir optiska sistēma - redze, tā ir citāda. Tāpēc krāsa ir mūsu redzes psiholoģiskā īpašība, kas izriet no objektu un gaismas novērošanas. Un ne objekta un gaismas fiziskā īpašība. Krāsa ir gaismas komponenšu, skatuves un vizuālās sistēmas mijiedarbības rezultāts.

Programmēšana datorizētai Pythonā, izmantojot bibliotēkas

Ja jūs nolemjat nopietni pētīt datoru redzi, jums nekavējoties jāsagatavojas virknei grūtību, šī zinātne nav vieglākā un slēpjas vairākas nepilnības. Bet "Datora redzes plānošana Pythonā" Jan Eric Solem autorā ir grāmata, kurā viss ir izklāstīts visvienkāršākajā iespējamā valodā. Šeit jūs iepazīsities ar dažādu objektu 3D atpazīšanas metodēm, iemācīties strādāt ar stereo attēliem, virtuālo realitāti un daudzām citām datorvīzijas lietojumprogrammām. Pitonā grāmatā ir pietiekami daudz piemēru. Taču paskaidrojumi tiek uzrādīti, vispārīgi runājot, lai neradītu pārāk daudz zinātniskas un smagas informācijas. Darbs ir piemērots studentiem, tikai mīļotājiem un entuziastiem. Jūs varat lejupielādēt šo grāmatu un citus par datora vīziju (pdf formātā) tiešsaistē.

Šobrīd ir atvērta datoru vizuālo algoritmu bibliotēka, kā arī OpenCV attēlu apstrāde un skaitliskie algoritmi. Tas tiek īstenots lielākajā daļā mūsdienu programmēšanas valodu, tai ir atvērts avota kods. Ja runājam par datora vīziju, Python to izmanto kā programmēšanas valodu, tad tam ir arī šī bibliotēka, turklāt tas pastāvīgi attīstās un tam ir liela kopiena.

Kompānija "Microsoft" piedāvā savus Api-pakalpojumus, kas var apmācīt neironu tīklus darbam ar indivīdu attēliem. Python var izmantot arī datorizētu vīziju kā programmēšanas valodu .

Datori, Informācijas tehnoloģijas

Mūsdienu datorzināšanas. Datora redzes uzdevumi un tehnoloģijas. Datora redzes programmēšana Pitonā

Kas ir datorvīzija? Šī ir datora spēja "redzēt"

Tēla semantiskā kodols

Attāluma un garuma vērtība datora redzējumā

Analīze, modeļu atpazīšana - veids, kā radīt augstāku prātu

Roboti var "redzēt"

Par mākslīgā intelekta pasaules sliekšņa

Dators vēl nesaprot, bet jau "redz"

Datora redzes integrēšana dažādās platformās

Neatrisinātā datora redzes problēma ir spēja atpazīt patvaļīgu tekstu

Spēles, kas saistītas ar datoru redzi, kustību uztveršanu

Roboti ir visur

Mūsdienu kamera ir kameras obscura analogs

Krāsu psiholoģiskais uztvere

Programmēšana datorizētai Pythonā, izmantojot bibliotēkas

Similar articles

Datori

Datori

Datori

Datori

Datori

Datori

Trending Now

Karjera

Mode

Veidošana

Veidošana

Mājīgums

Mājīgums

Newest

Ziņas un Society

Mārketings

Mājīgums

Izglītība:

Bizness

Likums